データ品質アセット > 部 III: 重複排除アセット > 重複排除アセットの概要

重複排除アセットの概要

重複排除アセットにより、データセット内のレコード間の類似性のレベルを測定し、必要に応じて類似するレコードを単一の優先レコードに統合します。

重複排除アセットは、分析するレコード内のID情報を確認します。データ品質のコンテキストでは、IDとは、個人、組織、またはその他の一意に識別可能なエンティティを識別する、レコード内の一連のデータ値です。

重複排除プロセスでは、重複排除トランスフォーメーションによって、入力レコード間の類似度を表す一連の数値が生成されます。2つ以上のレコードが高いスコアで互いに一致する場合、トランスフォーメーションによってそれらのレコードが潜在的な重複のセットに追加されます。重複排除アセットでは、トランスフォーメーションで使用されるスコアしきい値を確認し、更新することができます。

統合プロセスでは、マッピングによって、重複分析で識別された一致するレコードのセットがさらに評価されます。マッピングは、重複排除アセットで指定した基準に従って、各セット内のレコードの優先バージョンまたは最適なバージョンを構築します。

Data Qualityまたはデータ統合で重複排除アセットを作成してテストし、その後、データ統合のマッピングでそのアセットを重複排除トランスフォーメーションに追加します。Data Qualityでは、［新規］ダイアログボックスから重複排除アセットを作成します。データ統合では、［新規アセット］ダイアログボックスまたはマッピングから重複排除アセットを作成します。

マッピングの実行時に、データ統合は、アセットで定義された重複排除および統合操作を実行します。

重複排除プロジェクトのタイプ

重複排除アセットは、次のタイプのデータプロジェクトで使用できます。

•顧客リレーション管理。例えば、ある店舗がメールキャンペーンを企画し、重複する顧客レコードの有無を顧客データベースで確認する必要があるとき。
•規制の準拠。例えば、すべてのデータシステムに重複レコードがないことを要求する、政府や業界の規制下で事業が運営されているとき。
•財務リスク管理。例えば、銀行が口座名義人間のリレーションを検索するとき。
•重複するID情報を格納するレコードを特定または排除する必要があるプロジェクト。