Data Quality
Data Qualityを使用して、データ品質アセットを作成します。アセットをデータ統合でマッピングのトランスフォーメーションに追加します。
[マイサービス]ページで[データ品質]を選択すると、の[ホーム]ページが表示されます。
次の画像は、データ品質の[ホーム]ページを示しています。
ホームページには、次のパネルが表示されます。
- •ランタイム環境。使用可能なランタイム環境のステータス。
- •タイプ別およびステータス別アセット数。アクセス可能なアセットの概要。
- •最新のアセット。最後に変更したアセット。
Data Qualityのナビゲーションバーから、次のページにアクセスできます。
- •新規。ディクショナリ、クレンジングアセット、重複排除アセット、解析アセット、ラベラーアセット、ルール仕様アセット、ベリファイヤアセットを作成します。
- •ホーム。ホームページに戻ります。
- •エクスプローラ。プロジェクトとプロジェクトフォルダを管理します。データ品質アセット、データプロファイリングタスク、および例外タスクを見つけて開きます。
- •マイジョブ。組織で実行されているジョブのステータスを表示します。
- •マイインポート/エクスポートログ。インポートとエクスポートのステータスを表示します。
Data Qualityから別のサービスに切り替える場合、ナビゲーションバーのパネルおよびオプションがサービスに合わせて変更されます。
Data Qualityライフサイクル
データ品質プロジェクト用に設定するアセットは、Informatica Intelligent Cloud Services全体で実行できる一連の操作を構成します。
データの品質を理解および向上するには、次のステージを介してデータを移動できます。
- 1検出。ソースデータのコンテンツおよび構造を分析します。
コンテンツおよび構造を分析するには、データプロファイリングでプロファイルを作成します。
注: プロファイルは、データプロファイリングとData Qualityの両方の[参照]ページから開いて実行できます。
- 2デザイン。アセットを作成し、ソースデータで検出された問題に対処します。
アセットはData Qualityで作成します。
- 3適用。1つ以上のマッピングにアセットを追加し、データでマッピングを実行します。
マッピングは、データ統合で設計して実行します。
- 4測定。プロファイルを実行し、マッピングの結果を確認します。
必要に応じて、Data Qualityで作成したアセットを更新し、マッピングを再度実行して、データの品質を最適化します。
データ品質の次元
組織は、データ品質イニシアチブをデータシステムに組み込む際に、さまざまな目標を設定する場合があります。例えば、規制基準に準拠するために、重複レコードの除去が必要となる場合があります。または、レコード全体で、住所の正確性が低いことに気付くかもしれません。さらに、現在のデータから追加情報を掘り出し、価値を見つけることもできます。
組織のニーズはそれぞれ異なりますが、データに含まれる可能性のあるデータ品質問題は、共通するカテゴリに分類することができます。Data Qualityのアセットは、これらのカテゴリを次元として識別します。
データ統合のパッシブトランスフォーメーションに対応するデータ品質アセットで、[次元]オプションを設定できます。このオプションは、アセットで対処するデータ品質問題を指定するために設定します。[次元]オプションは、クレンジング、ラベラー、解析、ルール仕様、および検証用のアセットで設定できます。スコアカードは、ルール仕様アセットに設定した次元を読み取ることができます。
以下のいずれかの次元を選択することができます。
- 正確性
- アセットロジックが主にデータ値の正確性の確立に関係している場合は、[正確性]を選択します。アセットが検証できる既知のデータファクトとデータが一致する場合、そのデータは正確であると言えます。
- 例えば、ビジネスルールで、組織内の各従業員が自分のロールに対して正しいデータセキュリティクリアランスを持っている必要があると指定されているとします。組織は、各従業員のセキュリティクリアランスレベルと役職を含んだ一連の人事記録を保持しています。アセットを設定することで、セキュリティクリアランスデータを各レコードの役職データと比較し、値が正確に一致することを確認できます。
- 役職とセキュリティクリアランスレベルを含んだディクショナリを使用して、それぞれのデータ値が正しいことを確認することもできます。
- 有効性
- アセットロジックが主にデータの有効性の確立に関係している場合は、[有効性]を選択します。データが、組織が定義するビジネスルールの形式的および構造的要件を満たしている場合、そのデータは有効であると言えます。例えば、有効なデータは、データ型を使用したデータであり、またビジネスルールで指定された文字長に準拠しているデータである場合があります。
注: 有効性と一貫性は類似した次元です。ただし、データ値は一貫性を持つ場合がありますが、有効ではありません。一貫性は、カラムのデータ値間の形式の類似性に関する尺度です。有効性は、カラムデータの形式的な側面と、組織で必要とされる形式との間の対応に関する尺度です。
- 完了度
- アセットロジックが主にデータの完了度の確立に関係している場合は、[完了度]を選択します。
- 例えば、組織のビジネスルールでは、1つ以上のデータカラムにNULLデータが含まれていないことが求められる場合があります。NULLデータの関連するカラムを検索する1つ以上のルール文を使用して、ルール仕様を設定できます。
- 一貫性
- アセットロジックが主に1つ以上のカラム内のデータの一貫性の確立に関係している場合は、[一貫性]を選択します。カラムの値が統一された文字形式に準拠している場合、カラム内のこのデータは一貫していると言えます。さらに、カラムデータは、さまざまな情報に対する一致した一連の用語が使用されている場合に一貫性を持つことがあります。例えば、クレンジングアセットを設定して、StreetやRoadなどの道路の記述子をSTやRDなどに標準化できます。
- 一意性
- アセットロジックが、主に重複したレコードがデータセットに含まれていないことに関係している場合は、[一意性]を選択します。2つ以上のレコードが実質的に同じデータを持つ同じデータエンティティを参照している場合、それらのレコードは互いに重複していると言えます。レコードの一意性を報告するには、重複排除アセットを使用します。
- 重複排除アセットは、データセット内のレコードペア間で行う比較の結果に対して、しきい値スコアを適用します。重複排除トランスフォーメーションからの出力は、マッピングのルール仕様トランスフォーメーションにフィードできます。また、しきい値スコアに従ってステータス値をレコードに適用するように、ルール仕様トランスフォーメーションを設定できます。[一意性]次元は、ルール仕様トランスフォーメーションのルール仕様アセットに割り当てることができます。
- 適時性
- アセットの主な目的が、レコードデータが最新であることを確認することである場合は、[適時性]を選択します。現在のデータは、データファクトの最新のバージョンを表します。
- 例えば、小売組織で、倉庫の在庫レコードを毎日更新する必要がある場合があるとします。ルール仕様を定義することで、各在庫レコードの日付スタンプが現在の日付と一致することを確認できます。
次元のルールとガイドライン
アセットに次元を追加するときは、次のルールとガイドラインを考慮してください。
- •アセットを設定するときに、オプションのステップとして次元を選択します。デフォルトでは、アセットは次元を指定しません。
- •アセットには、複数の次元でデータを調べるステップが含まれる場合があります。アセットの目的を最もよく表す次元を選択してください。
- •設定する次元はメタデータ値です。これは、アセットロジックや、アセットが実行する分析には影響しません。
- •[次元]メニューの問題のリストは、調査するデータ品質問題の完全な範囲を表すものではありません。同様に、組織によって次元の意味と影響が異なる場合があります。データに適した次元を選択してください。