トランスフォーメーション > 重複排除トランスフォーメーション > 重複排除および統合操作
  

重複排除および統合操作

マッピングを実行すると、重複排除トランスフォーメーションは、読み取った入力レコードから一時インデックスを生成します。このトランスフォーメーションでは、インデックスが分析され、類似したレコードのペアが検索されます。
このトランスフォーメーションでは、検出されたレコードのペア間の類似性の度合いを表す一連のパーセンテージスコアが計算されます。2つのレコードが互いに一致し、スコアが特定のしきい値を超えている場合、トランスフォーメーションではレコードが重複していると見なされます。
トランスフォーメーションに追加する重複排除アセットにより、重複レコードが満たす必要があるしきい値スコアなど、重複排除操作の比較条件を指定します。
統合は、重複排除アセットがトランスフォーメーションに対して指定できるオプションのプロセスです。統合時に、トランスフォーメーションは重複排除プロセスで特定された一致レコードのセットを評価します。トランスフォーメーションは、それぞれの一致セットでレコードの優先バージョンを選択または作成します。
重複排除および統合プロセスは、Data Qualityユーザーが重複排除アセットで設定します。アセットで定義された条件の詳細については、Data Qualityユーザーにお問い合わせください。

重複排除および統合のルールとガイドライン

マッピングに重複排除トランスフォーメーションを追加する場合は、以下のルールとガイドラインを考慮してください。
ID分析のためのフィールドのマッピング
トランスフォーメーションに追加する重複排除アセットは、個人名や組織名などのIDのタイプを指定します。アセットでは、IDタイプが重複排除操作の目的と見なされます。IDのタイプにより、トランスフォーメーションによるインデックスでの検出が想定される情報のタイプを定義します。
トランスフォーメーションの適切な入力フィールドを、トランスフォーメーションが示すターゲットフィールドにマッピングする必要があります。必要に応じて、追加の入力フィールドをトランスフォーメーションの他のフィールドにマッピングすることもできます。
グループとシーケンスIDの値
重複分析では、グループは、特定のフィールドに同一の値を含むレコードのセットです。実行時に、重複排除トランスフォーメーションは各グループ内のレコードのインデックスデータのみを分析し、その後それぞれのグループからの結果を1つのデータセットに結合します。グループを定義するには、[フィールドマッピング]タブのGroupKeyフィールドを使用します。適切なフィールドにグループを作成すると、重複分析の精度を大幅に損なうことなく、トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。
GroupKeyフィールドは必須です。入力データをグループとして並べ替えないようにする場合は、すべての行に同じ値を持つカラムをデータセットに追加し、そのカラムをGroupKeyフィールドにマッピングします。
シーケンスID値は、トランスフォーメーションで入力レコードを読み取る順序を決定します。SequenceIdフィールドへデータを提供できるフィールドが入力レコードに含まれていない場合、トランスフォーメーションではレコードが入力データセットに出現する順序で読み取られます。詳細モードでマッピングを実行する場合、SequenceIdフィールドは必須です。
クラスタとスコア
2つ以上のレコードが一致する場合、トランスフォーメーションによって同じ一致セットにレコードが割り当てられ、セットのメンバーとして識別されるID値が各レコードに追加されます。
グループ内の一致レコードのセットはクラスタとも呼ばれ、一致レコードを関連付けるID値はクラスタIDと呼ばれます。
トランスフォーメーションは、出力データセット内のリンクスコアドライバスコアの値を持つ一致レコード間のリレーションを表します。リンクスコアとは、同一クラスタのメンバとして識別する2つのレコード間のスコアです。ドライバスコアとは、クラスタに追加された最初のレコードとクラスタ内の別のレコードの間のスコアです。
トランスフォーメーションでは、見つかった一致レコードのペアごとに1つのスコアが生成されることに注意してください。リンクとドライバのスコアは、異なるレコード間のリレーションのタイプを定義するものであり、異なる計算を表すものではありません。
メタデータフィールド
[出力フィールド]タブでは、トランスフォーメーションにより、一致レコードのペアのスコア値を表示するフィールドが追加されます。また、これらのフィールドは、それぞれのレコードが属するクラスタを識別します。重複排除アセットで統合プロセスが指定されている場合、メタデータフィールドは各クラスタの優先レコードを指定します。トランスフォーメーションは、優先レコードを存続レコードと見なします。
このフィールドを使用してマッピング結果を把握します。
メタデータフィールドの詳細については、重複排除トランスフォーメーションのメタデータフィールドおよびリンクスコアとドライバスコアを参照してください。