トランスフォーメーション > 重複排除トランスフォーメーション > 重複分析におけるグループ
  

重複分析におけるグループ

重複分析マッピングでは、重複排除トランスフォーメーションが実行する必要のあるデータ比較の回数が多数に及ぶため、時間がかかることがあります。比較の回数は、選択したフィールドのデータ値の数に関係しています。
次の表は、マッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数
比較回数
10,000
5000万
10万
50億
100万
5000億
マッピングの実行にかかる時間を短縮するには、入力レコードを[グループ]に割り当てるように重複排除トランスフォーメーションを構成します。
グループとは、指定したフィールド上の、同一の値を含む一連のレコードです。グループ化されたデータに対して重複分析を実行すると、重複排除トランスフォーメーションは各グループ内のレコードデータのみを分析し、それぞれのグループからの結果を単一の出力データセットに結合します。データをグループ化するフィールドは、GroupKeyフィールドです。適切なグループキーを選択すると、マッピング分析の精度を大きく損なうことなく、重複排除トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。重複排除トランスフォーメーションでGroupKeyフィールドを選択します。
次の表は、10個のグループに分類するマッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数
グループの数
グループサイズ
比較総数(全グループ)
10,000
10
1,000
500万
10万
10
10,000
5億
100万
10
10万
500億
データをグループにまとめるときは、以下のルールとガイドラインを考慮してください。

例: グループキーカラムの選択

銀行で、重複した銀行口座所有者の検索を行おうとしているとします。銀行の顧客データセットには顧客の名前と住所のカラムが含まれており、銀行は重複排除アセットの目的として[連絡先]を選択しました。銀行は、入力レコードをグループに分類し、各グループに対して重複分析を実行することを決定しました。銀行は、グループを作成する重複排除トランスフォーメーション内のカラムを選択する必要があるとします。
次の表に、データセットの一部を示します。
顧客ID
住所1
City
状態
郵便番号
90999990
Armstrong
Al
6121 SUNSET BLVD.
LOS ANGELES
CA
90028
USA
90999907
Baldwin
Lynn
1600 EL CAMINO REAL, SUITE 1500
MENLO PARK
CA
94025
USA
90999917
Baldwyn
Linn
1600 EL CAMINO REAL, #1500
MENLO PK
CA
94025
USA
90999859
Belleperche
Carmen
9255 SUNSET BLVD.
LOS ANGELES
CA
90069
USA
90999876
Clark
Wick
777 S. FIGUEROA
LOS ANGELES
CA
90071
USA
90999859
Bachtin
Guy
30 S. WACKER
CHICAGO
IL
60606
USA
90999868
Dicintio
David
181 WEST MADISON ST
CHICAGO
IL
60602
USA
90999869
Ash
Pascal
335 WEST 16TH STREET
NEW YORK
NY
10011
USA
90999996
Bachtin
David
1633 BROADWAY
NEW YORK
NY
10022
USA
90999994
Carpenter
Brad
30 BROAD ST
NEW YORK
NY
42304
USA
90999820
Dedmond
David
ONE FINANCIAL SQUARE
NEW YORK
NY
10008
USA
90999902
Backwell
Chris
901 SE OAK, WILLAMETTE PLZ
PORTLAND
OR
97214
USA
90999897
Askerup
Nancy
400 MARKET STREET
HOUSTON
TX
77027
USA
90999904
Choy
Shelley
1177 WEST LOOP SOUTH
HOUSTON
TX
77027
USA
90999886
Cote
Lian
530 E. SWEDESFORD RD.
HOUSTON
TX
77027
USA
90999999
Croteau
Paul
3829-55 GASKINS ROAD
HOUSTON
TX
77027
USA
このシナリオでは、レコードを並べ替えるために最適なカラムとして[州]カラムを使用します。トランスフォーメーションで、GroupKeyフィールドとして[州]カラムを選択します。
GroupKeyフィールドとして[州]カラムを選択すると、重複排除操作により、各州に1つずつ、合計5つのグループが作成されます。銀行の顧客情報の中で、異なる州で同じ連絡先情報を持つ顧客がいる可能性は非常に低いと言えます。さらに、データには顧客IDカラムが含まれており、これによって重複排除プロセスの信頼性が高まります。
顧客IDカラムはプライマリキーフィールドであるため、グループ作成の候補としては適していません。GroupKeyフィールドとしてカラムを選択すると、重複排除操作により、すべての一意のIDに対してグループが作成され、これによりすべてのレコードに対してグループが作成されます。
同様に、[国]カラムについてもすべての行に同じ値が含まれているため、グループ作成の候補としては適していません。GroupKeyフィールドとして[国]カラムを選択すると、重複排除操作によりすべてのレコードが同じグループに追加されます。銀行の顧客情報の中には、同じ名前の個別の顧客が全国に2人以上いる可能性があるため、そうした顧客のエントリが重複しないようにしたいと思います。