リンクスコアとドライバスコア
重複排除プロセスは、重複排除トランスフォーメーションの出力にリンクスコアとドライバスコアのデータを追加します。これらのデータを使用すると、重複レコード間のリレーションをより詳しく理解することができます。
リンクスコアとは、同一一致セットのメンバとして識別する2つのレコード間のスコアです。このスコアは、あるレコードと、しきい値を超えるスコアを持つ一致した最初のレコードとの間のリンクを表します。リンクIDにより、リンクスコアが適用されるレコードが識別されます。
リンクスコアとリンクIDの値は、レコードのペアが入力データ内で最も一致することを示すものではありません。リンクスコアとリンクIDの値は、一致レコードセットの構成を説明するためのものです。
ドライバスコアとは、一致レコードセットに最初に追加されたレコードと、同一セット内の別のレコードとの間のスコアです。トランスフォーメーションは、シーケンスIDまたは行IDの値を使用してセット内の最初のレコードを識別します。ドライバスコアは、セット内のすべてのレコードを単一のレコードに照らして評価する手段の1つです。
注: 重複分析では、入力レコードの単一のスコアセットが生成されます。ドライバスコアとリンクスコアは、レコード間の異なるリレーションを表すもので、異なるタイプの重複分析を示すものではありません。ドライバスコアとリンクスコアの割り当ては、レコードがトランスフォーメーションに入る順序に依存する可能性があります。特定のレコードのペアのドライバスコアがしきい値を下回る可能性があります。
リンクスコアとドライバスコアの例
重複排除トランスフォーメーションで名字データのカラムを含むレコードを分析します。重複排除アセットで、重複レコードのしきい値を0.825と定義します。
次の表に、トランスフォーメーションから返される可能性のある結果を示します。
名字 | シーケンスID | ClusterId | ClusterSize | DriverId | DriverScore | LinkId | LinkScore |
---|
SMITH | 1 | 1 | 2 | 1 - 6 | 1 | 1 - 1 | 1 |
SMYTH | 2 | 2 | 2 | 1 - 3 | 0.83333 | 1 - 2 | 1 |
SMYTHE | 3 | 2 | 2 | 1 - 3 | 1 | 1 - 2 | 0.83333 |
SMITT | 4 | 3 | 1 | 1 - 4 | 1 | 1 - 4 | 1 |
SMITS | 5 | 4 | 1 | 1 - 5 | 1 | 1 - 5 | 1 |
SMITH | 6 | 1 | 2 | 1 - 6 | 1 | 1 - 1 | 1 |
結果から、名字データに関する次の情報が得られます。
- •SMITTとSMITSは、他のどのレコードにも一致しません(スコアがしきい値を満足しない)。トランスフォーメーションが、レコードがデータセット内で一意であると判定します。このトランスフォーメーションでは、それぞれのレコードがそれ自体で一意に一致するため、レコードにスコア値1を割り当てることができます。
SMITTとSMITSのClusterSize値が1であることから、それぞれが各セット内で唯一のレコードであることがわかります。出力内で一意のレコードを見つけるには、含まれるレコードが1つだけの一致レコードセットを検索します。
- •SMITHとSMITHは、リンクスコアが1です。トランスフォーメーションがレコード同士が同一であると判定します。このトランスフォーメーションにより、レコードが単一の一致レコードセットに追加されます。ClusterId値は、これらのレコードが同じセットに属することを示しています。
- •SMYTHとSMYTHEは、スコア0.83333で一致します。スコアが重複しきい値を超えています。したがって、このトランスフォーメーションにより、レコードが単一の一致レコードセットに追加されます。