重複排除アセット > 重複排除アセットの概要 > 重複排除プロセスの設定
  

重複排除プロセスの設定

重複排除アセットで重複分析操作を定義するには、[重複排除]タブでオプションを設定します。
    1アセットで[重複排除]タブを選択します。
    2目標を選択します。目的は、重複排除トランスフォーメーションが重複分析中に検索するIDのタイプを表します。
    ヒント: 目標は、トランスフォーメーションが実行時に読み込む入力のセットも示します。[データのテスト]パネルでフィールドを確認できます。
    3索引キーを選択します。
    索引キーは、トランスフォーメーションがIDデータインデックスを構築するフィールドを表します。選択する目標により、索引キーを選択できるキーのセットが決定されます。
    4データセットが生成されたデータロケールを選択します。
    重複分析プロセスでは、選択するロケールに対しID参照データが読み込まれます。
    5オプションを選択または選択解除して、目標のオプションのフィールドを定義します。
    目標で指定されない関連データの1つ以上のカラムがソースデータに含まれていない場合、オプションを選択します。例えば、ソースデータに会社のサフィックスの個別のフィールドが含まれていることがあります。
    6正確な重複をフィルタリングするには、オプションを選択または選択解除します。
    オプションを選択すると、トランスフォーメーションは相互の重複であるレコードを統合ステージに直接渡すか、マッピングのダウンストリームオブジェクトに渡します。
    入力データに同一の行が多数含まれている場合は、このオプションを選択します。
    注: オプションの選択には関係なく、分析からの出力には、同じレコードが含まれています。オプションを選択してクリアすると、 重複排除トランスフォーメーションが出力レコードに異なるスコアを割り当てる場合があります。
    7重複分析のパフォーマンスのレベルを選択します。
    パフォーマンスレベルは、分析の速度と粒度間の関係を表します。分析の速度が速いと粒度は低くなり、一部の重複レコードを見逃すことがあります。
    8必要に応じて、パフォーマンスオプションに適用する条件を見直すか、更新してください。
    条件を見直すには、オプションを選択し、詳細オプションを展開します。
    条件をカスタマイズするには、パフォーマンスレベルとして[カスタム]オプションを選択します。例えば、しきい値スコア値を更新します。
    9アセットを保存します。
重複排除プロセスを設定した後、必要に応じて、重複排除で特定される重複レコードに対し統合プロセスを設定できます。
重複排除オプションの詳細については、「[重複排除]タブオプション」を参照してください。