重複分析におけるグループ
重複分析マッピングでは、重複排除トランスフォーメーションが実行する必要のあるデータ比較の回数が多数に及ぶため、時間がかかることがあります。比較の回数は、選択したフィールドのデータ値の数に関係しています。
次の表は、マッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数 | 比較回数 |
---|
10,000 | 5000万 |
10万 | 50億 |
100万 | 5000億 |
マッピングの実行にかかる時間を短縮するには、入力レコードを[グループ]に割り当てるように重複排除トランスフォーメーションを構成します。
グループとは、指定したフィールド上の、同一の値を含む一連のレコードです。グループ化されたデータに対して重複分析を実行すると、重複排除トランスフォーメーションは各グループ内のレコードデータのみを分析し、それぞれのグループからの結果を単一の出力データセットに結合します。データをグループ化するフィールドは、GroupKeyフィールドです。適切なグループキーを選択すると、マッピング分析の精度を大きく損なうことなく、重複排除トランスフォーメーションで実行する必要がある比較の総数を減らすことができます。重複排除トランスフォーメーションでGroupKeyフィールドを選択します。
次の表は、10個のグループに分類するマッピングが1つのフィールドに対して実行する計算の回数を示しています。
データ値の数 | グループの数 | グループサイズ | 比較総数(全グループ) |
---|
10,000 | 10 | 1,000 | 500万 |
10万 | 10 | 10,000 | 5億 |
100万 | 10 | 10万 | 500億 |
データをグループにまとめるときは、以下のルールとガイドラインを考慮してください。
- •GroupKeyフィールドには、さまざまな同一の値(住所データセットの市区町村名や都道府県名など)が含まれている必要があります。
- •重複分析に関連する情報を含むグループキーを選択しないでください。例えば、インデックスキーフィールドをGroupKeyフィールドとして選択しないでください。グループ作成の目的は、重複する性質があって、それが分析の目的には関係しない値に従ってデータを整理することです。
- •グループキーを選択するときは、入力データに対して有効なサイズのグループをトランスフォーメーションで作成できるかどうかを考慮してください。グループサイズが小さすぎると、照合分析でデータセットの中の一部の重複レコードが検索されないことがあります。グループサイズが大きすぎると、照合分析で偽の重複が返されることがあります。
- •データにグループキーに適したフィールドが含まれていない場合は、必要なグループサイズにレコードを分類するためにトランスフォーメーションが使用できるデータカラムを作成してください。例えば、100万件のレコードを含むデータセットの場合、1から50までの一連の値を繰り返すカラムを作成するとします。各グループのレコードはデータセット内に均等に分散され、グループ化されたデータに対して重複分析を続行できるようになります。
- •レコードがグループに分類されないようにする場合は、すべてのレコードに同じ値が含まれるGroupKeyフィールドを指定します。適切なフィールドがない場合は、フィールドを作成します。例えば、すべての値がGroup1であるデータカラムを作成し、そのカラムを[GroupKey]フィールドとして選択します。マッピングを実行すると、重複排除トランスフォーメーションによってGroupKeyフィールドの値ごとにレコードが分類され、すべてのレコードが同じグループに割り当てられます。
- •グループ化により、マッピングデータセット内のレコードの順序が変更されることはありません。
例: グループキーカラムの選択
銀行で、重複した銀行口座所有者の検索を行おうとしているとします。銀行の顧客データセットには顧客の名前と住所のカラムが含まれており、銀行は重複排除アセットの目的として[連絡先]を選択しました。銀行は、入力レコードをグループに分類し、各グループに対して重複分析を実行することを決定しました。銀行は、グループを作成する重複排除トランスフォーメーション内のカラムを選択する必要があるとします。
次の表に、データセットの一部を示します。
顧客ID | 姓 | 名 | 住所1 | City | 状態 | 郵便番号 | 国 |
---|
90999990 | Armstrong | Al | 6121 SUNSET BLVD. | LOS ANGELES | CA | 90028 | USA |
90999907 | Baldwin | Lynn | 1600 EL CAMINO REAL, SUITE 1500 | MENLO PARK | CA | 94025 | USA |
90999917 | Baldwyn | Linn | 1600 EL CAMINO REAL, #1500 | MENLO PK | CA | 94025 | USA |
90999859 | Belleperche | Carmen | 9255 SUNSET BLVD. | LOS ANGELES | CA | 90069 | USA |
90999876 | Clark | Wick | 777 S. FIGUEROA | LOS ANGELES | CA | 90071 | USA |
90999859 | Bachtin | Guy | 30 S. WACKER | CHICAGO | IL | 60606 | USA |
90999868 | Dicintio | David | 181 WEST MADISON ST | CHICAGO | IL | 60602 | USA |
90999869 | Ash | Pascal | 335 WEST 16TH STREET | NEW YORK | NY | 10011 | USA |
90999996 | Bachtin | David | 1633 BROADWAY | NEW YORK | NY | 10022 | USA |
90999994 | Carpenter | Brad | 30 BROAD ST | NEW YORK | NY | 42304 | USA |
90999820 | Dedmond | David | ONE FINANCIAL SQUARE | NEW YORK | NY | 10008 | USA |
90999902 | Backwell | Chris | 901 SE OAK, WILLAMETTE PLZ | PORTLAND | OR | 97214 | USA |
90999897 | Askerup | Nancy | 400 MARKET STREET | HOUSTON | TX | 77027 | USA |
90999904 | Choy | Shelley | 1177 WEST LOOP SOUTH | HOUSTON | TX | 77027 | USA |
90999886 | Cote | Lian | 530 E. SWEDESFORD RD. | HOUSTON | TX | 77027 | USA |
90999999 | Croteau | Paul | 3829-55 GASKINS ROAD | HOUSTON | TX | 77027 | USA |
このシナリオでは、レコードを並べ替えるために最適なカラムとして[州]カラムを使用します。トランスフォーメーションで、GroupKeyフィールドとして[州]カラムを選択します。
GroupKeyフィールドとして[州]カラムを選択すると、重複排除操作により、各州に1つずつ、合計5つのグループが作成されます。銀行の顧客情報の中で、異なる州で同じ連絡先情報を持つ顧客がいる可能性は非常に低いと言えます。さらに、データには顧客IDカラムが含まれており、これによって重複排除プロセスの信頼性が高まります。
顧客IDカラムはプライマリキーフィールドであるため、グループ作成の候補としては適していません。GroupKeyフィールドとしてカラムを選択すると、重複排除操作により、すべての一意のIDに対してグループが作成され、これによりすべてのレコードに対してグループが作成されます。
同様に、[国]カラムについてもすべての行に同じ値が含まれているため、グループ作成の候補としては適していません。GroupKeyフィールドとして[国]カラムを選択すると、重複排除操作によりすべてのレコードが同じグループに追加されます。銀行の顧客情報の中には、同じ名前の個別の顧客が全国に2人以上いる可能性があるため、そうした顧客のエントリが重複しないようにしたいと思います。