重複排除アセット構造

重複排除アセットは、［定義］タブ、［重複排除］タブ、および［設定］タブにオプションが含まれています。

アセットの名前を入力し、必要に応じてアセットの説明を入力し、アセットを保存するフォルダを選択するには、［定義］タブオプションを使用します。マッピングで実行されるID分析のタイプを設定するには、［重複排除］タブオプションを使用します。必要に応じて、［統合］オプションを使用して、ID分析で発生した個別のセットの重複排除レコードにマッピングで適用されるストラテジを設定します。

［重複排除］タブオプション

マッピングで実行される重複分析のタイプを設定するには、［重複排除］タブオプションを使用します。

次の図は、［重複排除］タブを示しています。

この図は、［重複排除］タブを示しています。タブの最初のオプションおよび2番目のオプションは、それぞれ目標と索引キーを示します。また、［重複排除］タブには、選択した目標と索引キーに対する必須キーおよび必要キーが表示されるテストパネルが表示されます。

［重複排除］タブには、次のオプションが含まれます。

1目標。

重複排除トランスフォーメーションが入力レコードを相互に比較する際に分析するID情報のタイプを特定します。

注: 選択する目標によって、その他のオプションでアセットが表示する入力フィールドが決定されます。

2索引キー。

重複排除トランスフォーメーションが入力レコードのインデックスを作成するために使用する情報のタイプを特定します。索引キーとして、最も関連するID情報のタイプを選択します。マッピングで読み込まれるソースデータには、情報が含まれているフィールドが含まれる必要があります。

3データロケール。

重複排除トランスフォーメーションがIDポピュレーション参照データをロードする郡または地域を特定します。生成された入力データがロケールを選択します。このフィールドには、必要なロケールを見つけるために役立つオートコンプリート機能が含まれています。

4オプションフィールド。

重複排除トランスフォーメーションが追加の入力フィールドを使用して、実行時に入力レコードのインデックスを作成できるようにします。

5正確な重複をフィルタリング。

トランスフォーメーションが、照合ストラテジで入力データの同じレコードのペアに比較アルゴリズムを適用するかどうかを決定します。このオプションを選択した場合、重複排除トランスフォーメーションは、相互に正確に複製されたレコードを統合ステージまたはマッピング内のダウンストリームオブジェクトに追加の分析なしで直接渡します。

オプションを選択した場合、または選択を取り消した場合でも、重複排除トランスフォーメーションの出力には同じレコードデータが含まれます。

6Performance。

ID分析の関連する速度と深さを示します。デフォルト値は「fast and less specific」です。適切な分析深度およびより高速なマッピング実行を提供します。その他のパフォーマンスオプションでは、より高度なID分析が可能になりますが、マッピングの実行にさらに時間がかかります。

ID分析の深度を決定するパフォーマンス条件を表示するには、［詳細オプション］を展開します。パフォーマンス条件をカスタマイズするには、パフォーマンスオプションとして［カスタム］を選択します。

7詳細オプション。

重複排除トランスフォーメーションが実行時に入力データに適用するパフォーマンス条件を表示します。

パフォーマンス条件の詳細については、「［重複排除］タブの詳細オプション」を参照してください。

8［データのテスト］パネル。

選択する目標に基づいて、アセットがデータに必要とするフィールドを表示します。各フィールドがカラム名として表示されます。データレコード間の類似性をテストするには、2行以上のデータを入力します。それぞれの必須フィールド、および現在の目標に対してアセットで表示される1つ以上の必須フィールドを入力します。

また、このパネルには、［ランタイム環境］オプションや、テストデータを検索、ソート、およびフィルタリングする場合のオプションが含まれます。Secure Agentを指定するには、［ランタイム環境］オプションを使用します。

［重複排除］タブの詳細オプション

詳細オプションには、重複排除トランスフォーメーションが実行時に重複分析に対して定義するパフォーマンス条件が表示されます。［パフォーマンス］フィールドの値によって条件が決まります。詳細オプションを展開し、［パフォーマンス］フィールド値の条件を表示します。実行時に適用される条件を更新するには、パフォーマンス値に［カスタム］を選択します。

次の図は、詳細オプションを示しています。

詳細オプションには、トランスフォーメーションが実行時に行う重複分析をカスタマイズするように設定できる複数の値が含まれています。一致しいき値も含まれており、これを使用して、重複レコード間に存在する必要がある類似性のレベルを定義できます。

次のオプションを確認または更新できます。

1精度。

2つのID間に存在する必要がある類似度を決定します。その後、それらの2つのIDが重複排除プロセスで相互に適切な一致とみなされます。

保守的な正確性には、非常に高い類似度が必要です。通常の正確性には、相応の類似度が必要です。ルーズな正確性では、ID間の類似性を評価する際に、より広範の許容度が可能です。

2信頼度。

重複排除プロセスで許容されるデータ値間の差異の範囲を決定します。信頼度は、重複排除プロセスでサポートされるエラー許容範囲のレベルを表します。

通常の信頼度では、プロセスでデータ値の共通エラーと誤差が検出されるように設定されます。通常の信頼度では、品質とマッピング実行時間の間の現実的なバランスが提供されます。

低い信頼度では、プロセスで狭い範囲のエラーが検出されるように設定されます。低い信頼度ではマッピング速度が優先され、一部の重複するIDが見落とされることがあります。

高い信頼度では、プロセスで通常の分析よりも広い範囲のエラーが検出されるように設定されます。高い信頼度によるマッピングの実行には、時間がかかることがあります。

最高の信頼度では、プロセスで候補の一致を検出するためにあらゆる可能性が使用されるように設定されます。最高のレベルは、入力データであらゆる可能な重複を検出する必要がある場合に選択します。最高の信頼度によるマッピングの実行には、さらに時間がかかります。

3キーレベル。

重複排除プロセスで作成される索引キーの複雑性を決定します。

標準レベルキーは、単語の順序、欠落している単語、余分な単語などほとんどの誤差に対応します。また、複数の単語から成る名前の深刻なスペルミスの場合に候補一致を見つける可能性を最大化します。

拡張レベルキーは、単語の順序や連結とは関係なく一致を見つけることで、一致の信頼性を向上させます。拡張キーはディスク容量の要件を増やし、これにより一致する候補のセットが増えます。

限定キーは、標準キーのサブセットです。限定キーによりディスク容量の使用が低下しますが、ID検索操作の信頼性も低下することがあります。

4重複排除の出力。

トランスフォーメーションが実行時に作成する一致レコードのクラスタの構成を決定します。クラスタのレコードごとの最適な一致のみを含むクラスタを作成するには、［Best Match］を選択します。クラスタの各レコードに一致する入力データのすべてのレコードを含むクラスタを作成するには、［Match All］を選択します。

5重複排除のしきい値。

相互の妥当な重複としてレコードを特定する2つのレコード間の最小スコアを指定します。

［統合］タブオプション

マッピングで実行される統合のタイプを設定するには、［統合］タブオプションを使用します。

次の図は、［統合］タブオプションを示します。

図は、［統合］タブの2つの重複ビューを示します。1つのビューには、行ベースの統合のオプションが表示されます。もう1つのビューには、フィールドベースの統合のオプションが表示されます。

［統合］タブには次のオプションが含まれます。

1統合モード。

マッピングの実行時に重複排除トランスフォーメーションが実行する統合のタイプを特定します。選択したタイプによって、トランスフォーメーションが重複レコードの各セットで優先レコードをどのように選択するかが決まります。

行ベースのオプションは、IDフィールドのデータ量に基づいて優先レコードを選択する場合に選択します。フィールドベースのオプションは、1つ以上のレコードのデータ値から優先レコードを構築する場合に選択します。重複レコードセットを統合しないようにすることもできます。

2行更新方式。

行ベースの統合モードを選択した場合、トランスフォーメーションがどのように優先レコードを選択するかを決定します。

優先レコードとして最も文字が多いレコードを指定する場合は、［Most Data］を選択します。自動入力されたフィールドの数が最も多い行を指定する場合は、［Most Filled］を選択します。各カラムに最も一般的な値を含むフィールドの数が最も多いレコードを選択する場合は、［Modal Exact］を選択します。

3フィールド名カラム。

重複排除トランスフォーメーションが読み込む入力レコードのフィールドを一覧表示します。フィールド名カラムは、フィールドベースの統合モードを選択した場合に表示されます。フィールドベースの統合を選択した場合は、フィールドごとに統合ストラテジを指定できます。

4ストラテジ。

フィールドベースの統合モードを選択した場合に、トランスフォーメーションが優先レコードに対し各フィールドでどのように値を選択するかを決定します。

次のいずれかのストラテジを選択します。

- 最大行ID。最大の行IDまたはシーケンスIDを持つレコードからの値を使用します。最大行IDはデフォルトのストラテジです。
- 平均。レコードの平均値を使用します。
- 最長。レコードのフィールドの最長値を使用します。
- 最大。レコードのフィールドの最大値を使用します。または、アルファベット順の最後の値を選択します。
- 最小。レコードのフィールドの最小値を使用します。または、アルファベット順の最初の値を使用します。
- 最も頻繁。レコードのフィールドの最も頻繁に使用される値を使用します。ブランク、空、またはゼロ長の文字列フィールドが含まれます。

注: 統合操作でNULL値は優先レコードに追加されません。

- ブランク以外の最も頻繁。レコードのフィールドの最も頻繁に使用される値を使用します。NULL、ブランク、空、またはゼロ長の文字列フィールドは含まれません。
- 最短。レコードのフィールドの最短値を使用します。

5タイプ

重複排除操作中にアセットによってフィールドが作成されたかどうか、または［統合］ペインでアセットにフィールドを追加したかどうかを示します。

6データ型

フィールドのデータ型を示します。すべてのフィールド上のデフォルトのデータ型はStringです。データ要件に合うように、フィールドベースの統合のデータ型を変更することができます。

フィールドには、次のデータ型のいずれかを選択できます。

- 日付/時刻
- 浮動小数点数型
- Integer
- String

注: フィールドのデータ型を変更する場合は、最初にアセットを保存せずに、モードを［統合なし］または［行ベースの統合］に変更します。別のモードに変更した場合、フィールドベースの統合モードでデータ型に行った更新がアセットで破棄されます。

7［フィールドの追加］ボタン。

フィールドベースモードを選択した場合、1つ以上の入力を統合操作に追加します。

次の場合にフィールドを追加します。

- ［重複排除］タブで定義するID分析は、トランスフォーメーションが分析するすべてのフィールドを対象としているわけではありません。
- 追加フィールドに対し、非デフォルトのストラテジを指定します。

フィールドベースのストラテジは、トランスフォーメーションの重複排除アセットにマッピングするすべての入力フィールドに適用されます。フィールドベースモードでフィールドにストラテジを指定しない場合、トランスフォーメーションはデフォルトのストラテジを適用します。