重複分析操作
重複分析操作は、データ品質の重複排除アセットと、データ統合のアセットを読み取る重複排除トランスフォーメーションで定義します。
大まかな説明として、次のような手順を実行します。
- 重複排除アセットの手順
- トランスフォーメーションで分析するID情報のタイプを選択します。
- トランスフォーメーションが入力データに適用する検索条件を設定します。
- 重複排除トランスフォーメーションの手順
- 重複排除されたアセットをトランスフォーメーションに追加します。
- 関連するIDデータを含んだフィールドを選択します。
- 実行時にトランスフォーメーションが入力レコードをソートすることができるフィールドを選択します。
重複排除アセットでは、選択する必要があるIDタイプのリストが提供されます。各IDは、さまざまな種類の情報に合わせて最適化されています。重複排除トランスフォーメーションを設定するときは、アセットによって指定されたIDフィールドをトランスフォーメーションの入力フィールドにマッピングします。
さらに、選択したフィールドの値に基づいて入力レコードをグループにソートできるように重複排除トランスフォーメーションを設定します。重複分析では、グループは、特定のフィールドに同一の値を含むレコードのセットです。実行時に、重複排除トランスフォーメーションは各グループ内のレコードのみを分析し、各グループからの結果を単一の出力データセットに結合します。適切なフィールドにグループを作成すると、重複分析の精度を大幅に損なうことなく、重複排除トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。
重複排除トランスフォーメーションのGroupKeyフィールドは、トランスフォーメーションがレコードをソートするフィールドを識別します。重複分析でのグループの詳細については、データ統合のドキュメントにある「トランスフォーメーション」モジュールの「重複排除トランスフォーメーション」の章を参照してください。
注: すべての入力レコードを1つのグループ内で分析するには、すべてのレコードに同じ値が含まれるフィールドからグループを作成します。
重複分析操作のルールおよびガイドライン
重複排除分析操作を設定する際には、次のルールとガイドラインを考慮してください。
- •重複排除トランスフォーメーションは、すべての入力レコードのフィールドデータをそのグループ内にあるその他のすべてのレコードのデータと比較します。トランスフォーメーションは、グループ内の最初のレコード、またはシーケンスID値が最も小さいレコードから始まります。
トランスフォーメーションにより、クラスタと呼ばれる、類似レコードの個別のセットが作成されます。レコードがグループ内の他のレコードと一致する場合、トランスフォーメーションによってレコードが同じクラスタに追加されます。レコードがすでにクラスタの一部である別のレコードと一致する場合、トランスフォーメーションによってそのレコードがクラスタに追加されます。レコードがそのグループ内の他のレコードと一致しない場合、そのレコードはそのクラスタの唯一のメンバーになります。
グループ分析が完了すると、重複排除トランスフォーメーションによって、各グループのレコードが単一の出力データセットに順番に並べられます。
- •一連のレコードのID間の類似性を決定するため、重複排除トランスフォーメーションはIDに関連する入力フィールドの値からインデックスを作成します。インデックスには、入力フィールドからのRaw値と、そのRaw値の代替バージョンの範囲が含まれています。
重複排除アセットの目的に[ID]タイプを選択します。IDのプリンシパルデータを含む入力フィールドをアセットの索引キーとして指定します。
- •重複排除トランスフォーメーションは、グループ内のレコードのペアごとに、レコード間の類似度を表す数値スコアを計算します。IDレコードのペアは、スコア1.00を返します。
このトランスフォーメーションはしきい値を使用して、相互に一致するレコードを識別します。デフォルト値は、0.9、または90パーセントです。2つのレコードがしきい値以上のスコアで一致する場合、トランスフォーメーションはそのレコードを重複として識別します。
必要に応じて、重複分析の速度、パフォーマンス、深度を変更する追加のアセットのプロパティを更新できます。
- •重複排除トランスフォーメーションからの最終出力は、重複排除アセットで指定した出力プロパティによって異なります。デフォルトでは、アセットは、作成するクラスタ内の一致するレコードのすべてのペアを保持するようにトランスフォーメーションに指示します。あるいは、アセットは、相互に最も一致するレコードのみを保持するようにトランスフォーメーションに指示することもできます。出力タイプをアセットのプロパティとして設定できます。