データ品質アセット > 部 III: 重複排除アセット > 重複排除アセットの概要 > 重複排除アセット構造

重複排除アセット構造

重複排除アセットは、［定義］タブ、［重複排除］タブ、および［統合］タブにオプションが含まれています。

［定義］タブのオプションを使用して、アセットの名前を入力し、必要に応じてアセットの説明を入力して、アセットを保存するフォルダを選択します。マッピングで実行されるID分析のタイプを設定するには、［重複排除］タブオプションを使用します。必要に応じて、［統合］オプションを使用して、ID分析で発生した個別の重複排除レコードセットにマッピングで適用するストラテジを設定します。

［重複排除］タブオプション

マッピングで実行される重複分析のタイプを設定するには、［重複排除］タブのオプションを使用します。［重複排除］タブには、［設定］、［詳細オプション］、［データのテスト］の各パネルが含まれています。

［設定］パネル

マッピングで実行される重複分析のタイプを設定するには、［設定］パネルを使用します。

次の画像は［重複排除］タブの［設定］パネルを示しています。

［設定］パネルには以下のオプションが含まれます。

1目標。アセットが入力レコードを相互に比較する際に優先する情報のタイプを識別します。設定できるオブジェクトの詳細については、重複排除の目標を参照してください。
2索引キー。アセットが入力レコードのインデックスを作成するために使用する情報のタイプを識別します。
3データロケール。重複排除トランスフォーメーションがIDポピュレーション参照データをロードする郡または地域を特定します。
4オプションフィールド。実行時に重複解析で追加のフィールドを考慮できるようにします。このフィールドはデフォルトでは無効になっています。
5正確な重複をフィルタリング。トランスフォーメーションにより同一のレコードを分析なしで設定ステージに直接渡すかどうかを設定します。このフィールドはデフォルトでは無効になっています。
6パフォーマンス。重複分析の速度と粒度を指定します。きめの細かい分析には実行にさらに時間がかかります。詳細オプションを有効にするには、［カスタム］を選択します。

［詳細オプション］パネル

［詳細オプション］パネルを使用すると、実行時に重複排除トランスフォーメーションによって重複分析のために定義されるパフォーマンス条件をレビューまたは更新できます。

以下の画像は［重複排除］タブの［詳細オプション］パネルを示しています。

［重複排除］タブの［詳細オプション］パネル。このパネルには、パフォーマンスをカスタマイズするための様々なオプションが表示されています。［フィールドしきい値］オプションは無効化されています。

1精度。2つのID間に存在する必要がある類似度を決定します。その後、それらの2つのIDが重複排除プロセスで相互に適切な一致とみなされます。

次の精度の中から1つを選択できます。

- ［保守的］。非常に高い類似度を要求します。
- ［ルーズ］。ID間の類似度を評価する際に、より広範な許容度を提供します。
- 通常オプションを使用する。相応の類似度を要求します。

2信頼度。重複排除プロセスで許容されるデータ値間の差異の範囲を決定します。信頼度は、重複排除プロセスでサポートされるエラー許容範囲のレベルを表します。

次の信頼度の中から1つを選択できます。

- 網羅的。プロセスで通常の分析よりも広い範囲の重複エラーが検出されるように設定します。信頼度レベルを［網羅的］に設定してマッピングを実行すると、処理時間が長くなることがあります。
- 徹底的。あらゆる可能性を尽くして一致候補を検出するようにプロセスを設定します。入力データから考えられるすべての重複を検出する切実な必要がある場合は、この「徹底的」レベルを選択します。信頼度レベルを［徹底的］にすると、マッピングの実行にかかる時間がさらに長くなります。
- 厳格。検出するエラーの許容範囲を狭く（厳格に）絞り込むようにプロセスを設定します。信頼度を［厳格］にするとマッピング速度が最優先され、一部の重複IDが見落とされることがあります。
- 通常オプションを使用する。プロセスでデータ値の共通エラーと誤差が検出されるように設定します。通常の信頼度では、品質とマッピング実行時間の間の現実的なバランスが提供されます。

3キーレベル。重複排除プロセスで作成される索引キーの複雑性を決定します。

次のキーレベルの中から1つを選択できます。

- 拡張。単語の順序や連結とは関係なく一致を見つけることで、一致の信頼性を向上させます。拡張キーはディスク容量の要件を増やし、これにより一致する候補のセットが増えます。
- 標準。単語の順序、欠落している単語、余分な単語などほとんどの誤差に対応します。また、複数の単語から成る名前の深刻なスペルミスの場合に候補一致を見つける可能性を最大化します。
- 限定。標準キーのサブセットです。限定キーによりディスク容量の使用が低下しますが、ID検索操作の信頼性も低下することがあります。

4重複排除の出力。トランスフォーメーションが実行時に作成する一致レコードのクラスタの構成を決定します。

以下の重複排除の出力の中から1つを選択できます。

- 最良の一致。クラスタ内の各レコードに対して、最も一致度の高い組み合わせのみを含むクラスタを作成します。
- すべてに一致。クラスタの各レコードに対して、一致する入力データの全レコードを含むクラスタを作成します。

5重複排除のしきい値。相互の妥当な重複としてレコードを特定する2つのレコード間の最小スコアを指定します。しきい値は0から100までの範囲で入力できます。
6フィールドしきい値。入力フィールドのカスタム重複排除のしきい値を有効にします。

このフィールドレベルのしきい値オプションを使用すると、重複排除プロセス内の各フィールドに重点を置いて、現在の重複排除プロジェクトに合わせて微調整された結果を提供できます。

しきい値を設定するには、［フィールドしきい値の管理］をクリックします。［フィールドしきい値の管理］ダイアログボックスでは、各入力フィールドに固有のしきい値を設定できます。しきい値は0から100までの範囲で入力できます。

［データのテスト］パネル

［データのテスト］パネルでは、選択した目的に応じてアセットがデータを必要とするフィールドを確認できます。

次の図に［データのテスト］パネルを示します。

各フィールドがカラム名として表示されます。データレコード間の類似度をテストするには、2行以上のデータを入力します。それぞれの必須フィールド、および現在の目標に対してアセットで表示される1つ以上の必須フィールドを入力します。

また、このパネルには、［ランタイム環境］オプションや、テストデータを検索、ソート、およびフィルタリングする場合のオプションが含まれます。Secure Agentを指定するには、［ランタイム環境］オプションを使用します。

［統合］タブ

マッピングで実行される統合のタイプを設定するには、［統合］タブのオプションを使用します。

次の図は、［統合］タブのオプションを示しています。

統合タブの2つの重なり合ったビュー。1つのビューには、行ベースの統合のオプションが表示されます。もう1つのビューには、フィールドベースの統合のオプションが表示されます。

［統合］タブには次のオプションが含まれます。

1統合モード。

マッピングの実行時に重複排除トランスフォーメーションが実行する統合のタイプを特定します。選択したタイプによって、トランスフォーメーションが重複レコードの各セットで優先レコードをどのように選択するかが決まります。

行ベースのオプションは、IDフィールドのデータ量に基づいて優先レコードを選択する場合に選択します。フィールドベースのオプションは、1つ以上のレコードのデータ値から優先レコードを構築する場合に選択します。重複レコードセットを統合しないようにすることもできます。

2行更新方式。

行ベースの統合モードを選択した場合、トランスフォーメーションがどのように優先レコードを選択するかを決定します。

優先レコードとして最も文字が多いレコードを指定する場合は、［Most Data］を選択します。自動入力されたフィールドの数が最も多い行を指定する場合は、［Most Filled］を選択します。各カラムに最も一般的な値を含むフィールドの数が最も多いレコードを選択する場合は、［Modal Exact］を選択します。

3フィールド名カラム。

重複排除トランスフォーメーションが読み込む入力レコードのフィールドを一覧表示します。フィールド名カラムは、フィールドベースの統合モードを選択した場合に表示されます。フィールドベースの統合を選択した場合は、フィールドごとに統合ストラテジを指定できます。

4ストラテジ。

フィールドベースの統合モードを選択した場合に、トランスフォーメーションが優先レコードに対し各フィールドでどのように値を選択するかを決定します。

次のいずれかのストラテジを選択します。

- 最大行ID。最大の行IDまたはシーケンスIDを持つレコードからの値を使用します。最大行IDはデフォルトのストラテジです。
- 平均。レコードの平均値を使用します。
- 最長。レコードのフィールドの最長値を使用します。
- 最大。レコードのフィールドの最大値を使用します。または、アルファベット順の最後の値を選択します。
- 最小。レコードのフィールドの最小値を使用します。または、アルファベット順の最初の値を使用します。
- 最も頻繁。レコードのフィールドの最も頻繁に使用される値を使用します。ブランク、空、またはゼロ長の文字列フィールドが含まれます。

注:

統合操作でNULL値は優先レコードに追加されません。

- ブランク以外の最も頻繁。レコードのフィールドの最も頻繁に使用される値を使用します。NULL、ブランク、空、またはゼロ長の文字列フィールドは含まれません。
- 最短。レコードのフィールドの最短値を使用します。

5タイプ

重複排除操作中にアセットによってフィールドが作成されたかどうか、または［統合］ペインでアセットにフィールドを追加したかどうかを示します。

6データ型

フィールドのデータ型を示します。すべてのフィールド上のデフォルトのデータ型はStringです。データ要件に合うように、フィールドベースの統合のデータ型を変更することができます。

フィールドには、次のデータ型のいずれかを選択できます。

- Date/Time
- 浮動小数点数型
- Integer
- String

注:

フィールドのデータ型を変更する場合は、最初にアセットを保存せずに、モードを［統合なし］または［行ベースの統合］に変更します。別のモードに変更した場合、フィールドベースの統合モードでデータ型に行った更新がアセットで破棄されます。

7［フィールドの追加］ボタン。

フィールドベースモードを選択した場合、1つ以上の入力を統合操作に追加します。

次の場合にフィールドを追加します。

- ［重複排除］タブで定義するID分析は、トランスフォーメーションが分析するすべてのフィールドを対象としているわけではありません。
- 追加フィールドに対し、非デフォルトのストラテジを指定します。

フィールドベースのストラテジは、トランスフォーメーションの重複排除アセットにマッピングするすべての入力フィールドに適用されます。フィールドベースモードでフィールドにストラテジを指定しない場合、トランスフォーメーションはデフォルトのストラテジを適用します。