重複排除トランスフォーメーションのメタデータフィールド
重複排除トランスフォーメーションには、重複排除および統合プロセスのメタデータを示す一連の定義済みのフィールドが含まれています。トランスフォーメーションはデフォルトでフィールドを作成し、マッピングの実行時にフィールドにデータを取り込みます。
[フィールドマッピング]タブのメタデータフィールド
[フィールドマッピング]タブの[ターゲットフィールド]リストには、次のメタデータフィールドがあります。
- GroupKey
- 重複分析のためにトランスフォーメーションで入力レコードをグループにソートするために使用するデータ値が含まれます。
- SequenceId
- トランスフォーメーションに入力される各レコードの一意の識別子が含まれます。
- トランスフォーメーションは、シーケンスID値を使用してOut_DriverIdおよびOut_LinkIdデータ内のレコードを識別します。SequenceIdフィールドをマッピングしていない場合、トランスフォーメーションはOutRowIdフィールドの値をレコードの一意の識別子として使用します。
[出力フィールド]タブのメタデータフィールド
[出力フィールド]タブには、次のメタデータフィールドがあります。
- Out_ClusterId
- 各レコードが属するクラスタの識別子が含まれます。
注: 重複排除プロセスにおけるクラスタとは、データ値が重複しきい値を超える程度に相互に一致しているレコードのセットです。同一セット内のレコードは、同じIDを識別する可能性が高くなります。一意のレコードはそのレコード自体と完全に一致するため、1つのセットに1つのレコードのみが含まれる場合があります。
- Out_ClusterSize
- 現在のレコードが属するセット内のレコード数が含まれます。セットに一意のレコードが含まれている場合、クラスタサイズは1です。
- Out_DriverId
- 各一致レコードセット内のドライバレコードの識別子が含まれます。ドライバレコードは、SequenceId入力フィールドに対してセット内で値が最小のレコードです。トランスフォーメーションでSequenceIdフィールドが使用されない場合、ドライバレコードは、一致セット内でOut_RowId値が最小のレコードです。
- Out_DriverScore
- 一致レコードセット内の現在のレコードとドライバレコードとの間の類似度を表すスコアが含まれます。
- Out_IsSurvivor
- 統合プロセスで指定された優先レコードの識別子が含まれます。
- Out_LinkId
- 現在のレコードと一致し、それを一致レコードセットにリンクしたレコードの識別子が含まれます。
- Out_LinkScore
- 2つのレコード間のスコアが含まれます。このスコアにより、レコードが一致レコードセットに追加されます。Out_LinkIdフィールドは、リンクスコアが現在のレコードと同じレコードを特定します。
- Out_RowId
- マッピングソースのデータセット内の各レコードに対する一意の識別子が含まれます。
- 一意の識別子のフィールドをSequenceIdフィールドにマッピングしていない場合、トランスフォーメーションはOut_RowId値を使用してレコードを識別します。
メタデータフィールドの選択
メタデータフィールドを使用すると、重複レコード間のリレーションに関する重要な情報が得られます。例えば、メタデータには、2つのレコード間の類似度を数値で表すOut_LinkScoreフィールドがあります。Out_LinkScoreフィールドを選択する場合は、Out_LinkIdフィールドも選択します。Out_LinkIdフィールドは、Out_LinkScore値が示すレコードのペア内の他方のレコードを特定します。
Out_DriverId値は、一致レコードセット内のすべてのレコードのベンチマークを示します。Out_DriverId値は、現在のレコードと、セット内でシーケンスIDまたは行IDの値が最小のレコードとの間のスコアです。IDが最小のレコードは、重複排除プロセスでセットに最初に追加されたレコードでもあります。