重複排除アセット > 重複排除アセットの概要 > 重複分析操作
  

重複分析操作

重複分析操作は、データ品質の重複排除アセットと、データ統合のアセットを読み取る重複排除トランスフォーメーションで定義します。
大まかな説明として、次のような手順を実行します。
重複排除アセットの手順
トランスフォーメーションで分析するID情報のタイプを選択します。
トランスフォーメーションが入力データに適用する検索条件を設定します。
重複排除トランスフォーメーションの手順
重複排除されたアセットをトランスフォーメーションに追加します。
関連するIDデータを含んだフィールドを選択します。
実行時にトランスフォーメーションが入力レコードをソートすることができるフィールドを選択します。
重複排除アセットでは、選択する必要があるIDタイプのリストが提供されます。各IDは、さまざまな種類の情報に合わせて最適化されています。重複排除トランスフォーメーションを設定するときは、アセットによって指定されたIDフィールドをトランスフォーメーションの入力フィールドにマッピングします。
さらに、選択したフィールドの値に基づいて入力レコードをグループにソートできるように重複排除トランスフォーメーションを設定します。重複分析では、グループは、特定のフィールドに同一の値を含むレコードのセットです。実行時に、重複排除トランスフォーメーションは各グループ内のレコードのみを分析し、各グループからの結果を単一の出力データセットに結合します。適切なフィールドにグループを作成すると、重複分析の精度を大幅に損なうことなく、重複排除トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。
重複排除トランスフォーメーションのGroupKeyフィールドは、トランスフォーメーションがレコードをソートするフィールドを識別します。重複分析でのグループの詳細については、データ統合のドキュメントにある「トランスフォーメーション」モジュールの「重複排除トランスフォーメーション」の章を参照してください。
注: すべての入力レコードを1つのグループ内で分析するには、すべてのレコードに同じ値が含まれるフィールドからグループを作成します。

重複分析操作のルールおよびガイドライン

重複排除分析操作を設定する際には、次のルールとガイドラインを考慮してください。