トランスフォーメーション > 重複排除トランスフォーメーション > リンクスコアとドライバスコア
  

リンクスコアとドライバスコア

重複排除プロセスは、重複排除トランスフォーメーションの出力にリンクスコアとドライバスコアのデータを追加します。これらのデータを使用すると、重複レコード間のリレーションをより詳しく理解することができます。
リンクスコアとは、同一一致セットのメンバとして識別する2つのレコード間のスコアです。このスコアは、あるレコードと、しきい値を超えるスコアを持つ一致した最初のレコードとの間のリンクを表します。リンクIDにより、リンクスコアが適用されるレコードが識別されます。
リンクスコアとリンクIDの値は、レコードのペアが入力データ内で最も一致することを示すものではありません。リンクスコアとリンクIDの値は、一致レコードセットの構成を説明するためのものです。
ドライバスコアとは、一致レコードセットに最初に追加されたレコードと、同一セット内の別のレコードとの間のスコアです。トランスフォーメーションは、シーケンスIDまたは行IDの値を使用してセット内の最初のレコードを識別します。ドライバスコアは、セット内のすべてのレコードを単一のレコードに照らして評価する手段の1つです。
注: 重複分析では、入力レコードの単一のスコアセットが生成されます。ドライバスコアとリンクスコアは、レコード間の異なるリレーションを表すもので、異なるタイプの重複分析を示すものではありません。ドライバスコアとリンクスコアの割り当ては、レコードがトランスフォーメーションに入る順序に依存する可能性があります。特定のレコードのペアのドライバスコアがしきい値を下回る可能性があります。

リンクスコアとドライバスコアの例

重複排除トランスフォーメーションで名字データのカラムを含むレコードを分析します。重複排除アセットで、重複レコードのしきい値を0.825と定義します。
次の表に、トランスフォーメーションから返される可能性のある結果を示します。
名字
シーケンスID
ClusterId
ClusterSize
DriverId
DriverScore
LinkId
LinkScore
SMITH
1
1
2
1 - 6
1
1 - 1
1
SMYTH
2
2
2
1 - 3
0.83333
1 - 2
1
SMYTHE
3
2
2
1 - 3
1
1 - 2
0.83333
SMITT
4
3
1
1 - 4
1
1 - 4
1
SMITS
5
4
1
1 - 5
1
1 - 5
1
SMITH
6
1
2
1 - 6
1
1 - 1
1
結果から、名字データに関する次の情報が得られます。