重複排除プロセスの設定
重複排除アセットで重複分析操作を定義するには、[重複排除]タブでオプションを設定します。
1アセットで[重複排除]タブを選択します。
2目標を選択します。目的は、重複排除トランスフォーメーションが重複分析中に検索するIDのタイプを表します。
ヒント: 目標は、トランスフォーメーションが実行時に読み込む入力のセットも示します。[データのテスト]パネルでフィールドを確認できます。
3索引キーを選択します。
索引キーは、トランスフォーメーションがIDデータインデックスを構築するフィールドを表します。選択する目標により、索引キーを選択できるキーのセットが決定されます。
4データセットが生成されたデータロケールを選択します。
重複分析プロセスでは、選択するロケールに対しID参照データが読み込まれます。
5オプションを選択または選択解除して、目標のオプションのフィールドを定義します。
目標で指定されない関連データの1つ以上のカラムがソースデータに含まれていない場合、オプションを選択します。例えば、ソースデータに会社のサフィックスの個別のフィールドが含まれていることがあります。
6正確な重複をフィルタリングするには、オプションを選択または選択解除します。
オプションを選択すると、トランスフォーメーションは相互の重複であるレコードを統合ステージに直接渡すか、マッピングのダウンストリームオブジェクトに渡します。
入力データに同一の行が多数含まれている場合は、このオプションを選択します。
注: オプションの選択には関係なく、分析からの出力には、同じレコードが含まれています。オプションを選択してクリアすると、 重複排除トランスフォーメーションが出力レコードに異なるスコアを割り当てる場合があります。
7重複分析のパフォーマンスのレベルを選択します。
パフォーマンスレベルは、分析の速度と粒度間の関係を表します。分析の速度が速いと粒度は低くなり、一部の重複レコードを見逃すことがあります。
8必要に応じて、パフォーマンスオプションに適用する条件を見直すか、更新してください。
条件を見直すには、オプションを選択し、詳細オプションを展開します。
条件をカスタマイズするには、パフォーマンスレベルとして[カスタム]オプションを選択します。例えば、しきい値スコア値を更新します。
9アセットを保存します。
重複排除プロセスを設定した後、必要に応じて、重複排除で特定される重複レコードに対し統合プロセスを設定できます。
重複排除オプションの詳細については、「
[重複排除]タブオプション」を参照してください。