重複排除アセット > 重複排除アセットの概要

重複排除アセットの概要

重複排除アセットにより、一連の重複分析操作を定義します。重複分析は、データセット内のレコードの重複レベルを測定し、必要に応じて、重複レコードの各セットを単一の優先レコードに統合します。

重複排除アセットは、Data Qualityで作成します。データ統合でマッピングの重複排除トランスフォーメーションにアセットを追加します。マッピングの実行時に、データ統合は、アセットで定義された重複排除および統合操作を実行します。

重複排除アセットは、分析するレコード内のID情報を確認します。データ品質のコンテキストでは、IDとは、個人、組織、またはその他の一意に識別可能なエンティティを識別する、レコード内の一連のデータ値です。

重複排除プロセスでは、重複排除トランスフォーメーションによって、入力レコード間の類似度を表す一連の数値が生成されます。2つ以上のレコードが高いスコアで互いに一致する場合、トランスフォーメーションによってそれらのレコードが潜在的な重複のセットに追加されます。重複排除アセットでは、トランスフォーメーションで使用されるスコアしきい値を確認し、更新することができます。

統合プロセスでは、マッピングによって、重複分析で識別された一致するレコードのセットがさらに評価されます。マッピングは、重複排除アセットで指定した基準に従って、各セット内のレコードの優先バージョンまたは最適なバージョンを構築します。

重複排除プロジェクトのタイプ

重複排除アセットは、次のタイプのデータプロジェクトで使用できます。

•顧客リレーション管理。例えば、ある店舗がメールキャンペーンを企画し、重複する顧客レコードの有無を顧客データベースで確認する必要があるとき。
•規制の準拠。例えば、すべてのデータシステムに重複レコードがないことを要求する、政府や業界の規制下で事業が運営されているとき。
•財務リスク管理。例えば、銀行が口座名義人間のリレーションを検索するとき。
•重複するID情報を格納するレコードを特定または排除する必要があるプロジェクト。