重複排除アセットの概要
重複排除アセットにより、一連の重複分析操作を定義します。重複分析は、データセット内のレコードの重複レベルを測定し、必要に応じて、重複レコードの各セットを単一の優先レコードに統合します。
重複排除アセットは、Data Qualityで作成します。データ統合でマッピングの重複排除トランスフォーメーションにアセットを追加します。マッピングの実行時に、データ統合は、アセットで定義された重複排除および統合操作を実行します。
重複排除アセットは、分析するレコード内のID情報を確認します。データ品質のコンテキストでは、IDとは、個人、組織、またはその他の一意に識別可能なエンティティを識別する、レコード内の一連のデータ値です。
重複排除プロセスでは、重複排除トランスフォーメーションによって、入力レコード間の類似度を表す一連の数値が生成されます。2つ以上のレコードが高いスコアで互いに一致する場合、トランスフォーメーションによってそれらのレコードが潜在的な重複のセットに追加されます。重複排除アセットでは、トランスフォーメーションで使用されるスコアしきい値を確認し、更新することができます。
統合プロセスでは、マッピングによって、重複分析で識別された一致するレコードのセットがさらに評価されます。マッピングは、重複排除アセットで指定した基準に従って、各セット内のレコードの優先バージョンまたは最適なバージョンを構築します。
重複排除プロジェクトのタイプ
重複排除アセットは、次のタイプのデータプロジェクトで使用できます。
- •顧客リレーション管理。例えば、ある店舗がメールキャンペーンを企画し、重複する顧客レコードの有無を顧客データベースで確認する必要があるとき。
- •規制の準拠。例えば、すべてのデータシステムに重複レコードがないことを要求する、政府や業界の規制下で事業が運営されているとき。
- •財務リスク管理。例えば、銀行が口座名義人間のリレーションを検索するとき。
- •重複するID情報を格納するレコードを特定または排除する必要があるプロジェクト。