重複排除プロセスの設定

1アセットで［重複排除］タブを選択します。

2目標を選択します。目的は、重複排除トランスフォーメーションが重複分析中に検索するIDのタイプを表します。

ヒント: 目標は、トランスフォーメーションが実行時に読み込む入力のセットも示します。［データのテスト］パネルでフィールドを確認できます。

索引キーは、トランスフォーメーションがIDデータインデックスを構築するフィールドを表します。選択する目標により、索引キーを選択できるキーのセットが決定されます。

4データセットが生成されたデータロケールを選択します。

重複分析プロセスでは、選択するロケールに対しID参照データが読み込まれます。

5オプションを選択または選択解除して、目標のオプションのフィールドを定義します。

目標で指定されない関連データの1つ以上のカラムがソースデータに含まれていない場合、オプションを選択します。例えば、ソースデータに会社のサフィックスの個別のフィールドが含まれていることがあります。

6正確な重複をフィルタリングするには、オプションを選択または選択解除します。

オプションを選択すると、トランスフォーメーションは相互の重複であるレコードを統合ステージに直接渡すか、マッピングのダウンストリームオブジェクトに渡します。

入力データに同一の行が多数含まれている場合は、このオプションを選択します。

注: オプションの選択には関係なく、分析からの出力には、同じレコードが含まれています。オプションを選択してクリアすると、重複排除トランスフォーメーションが出力レコードに異なるスコアを割り当てる場合があります。

7重複分析のパフォーマンスのレベルを選択します。

パフォーマンスレベルは、分析の速度と粒度間の関係を表します。分析の速度が速いと粒度は低くなり、一部の重複レコードを見逃すことがあります。

8必要に応じて、パフォーマンスオプションに適用する条件を見直すか、更新してください。

条件を見直すには、オプションを選択し、詳細オプションを展開します。

条件をカスタマイズするには、パフォーマンスレベルとして［カスタム］オプションを選択します。例えば、しきい値スコア値を更新します。