トランスフォーメーション > 重複排除トランスフォーメーション > 重複排除トランスフォーメーションのメタデータフィールド
  

重複排除トランスフォーメーションのメタデータフィールド

重複排除トランスフォーメーションには、重複排除および統合プロセスのメタデータを示す一連の定義済みのフィールドが含まれています。トランスフォーメーションはデフォルトでフィールドを作成し、マッピングの実行時にフィールドにデータを取り込みます。

[フィールドマッピング]タブのメタデータフィールド

[フィールドマッピング]タブの[ターゲットフィールド]リストには、次のメタデータフィールドがあります。
GroupKey
重複分析のためにトランスフォーメーションで入力レコードをグループにソートするために使用するデータ値が含まれます。
SequenceId
トランスフォーメーションに入力される各レコードの一意の識別子が含まれます。
トランスフォーメーションは、シーケンスID値を使用してOut_DriverIdおよびOut_LinkIdデータ内のレコードを識別します。SequenceIdフィールドをマッピングしていない場合、トランスフォーメーションはOutRowIdフィールドの値をレコードの一意の識別子として使用します。

[出力フィールド]タブのメタデータフィールド

[出力フィールド]タブには、次のメタデータフィールドがあります。
Out_ClusterId
各レコードが属するクラスタの識別子が含まれます。
注: 重複排除プロセスにおけるクラスタとは、データ値が重複しきい値を超える程度に相互に一致しているレコードのセットです。同一セット内のレコードは、同じIDを識別する可能性が高くなります。一意のレコードはそのレコード自体と完全に一致するため、1つのセットに1つのレコードのみが含まれる場合があります。
Out_ClusterSize
現在のレコードが属するセット内のレコード数が含まれます。セットに一意のレコードが含まれている場合、クラスタサイズは1です。
Out_DriverId
各一致レコードセット内のドライバレコードの識別子が含まれます。ドライバレコードは、SequenceId入力フィールドに対してセット内で値が最小のレコードです。トランスフォーメーションでSequenceIdフィールドが使用されない場合、ドライバレコードは、一致セット内でOut_RowId値が最小のレコードです。
Out_DriverScore
一致レコードセット内の現在のレコードとドライバレコードとの間の類似度を表すスコアが含まれます。
Out_IsSurvivor
統合プロセスで指定された優先レコードの識別子が含まれます。
Out_LinkId
現在のレコードと一致し、それを一致レコードセットにリンクしたレコードの識別子が含まれます。
Out_LinkScore
2つのレコード間のスコアが含まれます。このスコアにより、レコードが一致レコードセットに追加されます。Out_LinkIdフィールドは、リンクスコアが現在のレコードと同じレコードを特定します。
Out_RowId
マッピングソースのデータセット内の各レコードに対する一意の識別子が含まれます。
一意の識別子のフィールドをSequenceIdフィールドにマッピングしていない場合、トランスフォーメーションはOut_RowId値を使用してレコードを識別します。

メタデータフィールドの選択

メタデータフィールドを使用すると、重複レコード間のリレーションに関する重要な情報が得られます。例えば、メタデータには、2つのレコード間の類似度を数値で表すOut_LinkScoreフィールドがあります。Out_LinkScoreフィールドを選択する場合は、Out_LinkIdフィールドも選択します。Out_LinkIdフィールドは、Out_LinkScore値が示すレコードのペア内の他方のレコードを特定します。
Out_DriverId値は、一致レコードセット内のすべてのレコードのベンチマークを示します。Out_DriverId値は、現在のレコードと、セット内でシーケンスIDまたは行IDの値が最小のレコードとの間のスコアです。IDが最小のレコードは、重複排除プロセスでセットに最初に追加されたレコードでもあります。