重複レコード > 重複修正
  

重複修正

重複レコードを修正するには、クラスタ内のすべてのレコードを調べます。 クラスタ内の各レコードの最も正確なデータを優先レコードに追加します。 重複レコード以外のレコードは削除します。
次の操作を実行して、重複を修正します。
クラスタの編集。
[データ編集]パネルには、クラスタ内のレコードが表示されており、1つのレコードが優先レコードとして選択されています。 クラスタ内の各レコードのフィールドの値を調べます。 クラスタ内のレコードが同じレコードの異なるバージョンを表していることを確かめます。 優先レコードの値よりも正確な情報を含む値が見つかったら、そのレコードの値で優先レコードの値を置き換えます。
クラスタの作成。
1つのクラスタに含まれているレコードが、そのクラスタ内のレコードのどれとも重複しないことがあります。 この場合は、クラスタを1つ作成して、それにそのレコードを移動します。 データベーステーブル内に一意のレコードを保持するためのクラスタを作成します。 そのクラスタには、単一のレコードが入っています。
他のクラスタの中のレコードを検索します。
複数のクラスタにまたがって、データに重複レコードが含まれることが期待される場合は、他のクラスタのレコードを検索します。 Analystツールで、複数のクラスタを同時に開くことができます。 クラスタ間で重複レコードが存在する場合、レコードをクラスタ間で移動します。
確認ステータスの設定。
クラスタ内の優先レコードが完成したら、クラスタの確認ステータスをREVIEWEDに設定します。 Analystツールによって、データベーステーブルに保存する優先レコードがマークされ、残りのレコードは冗長としてマークされます。 マッピングタスクでは、ワークフローの後の段階で冗長レコードを削除できます。 優先レコードを再び変更する場合は、クラスタのステータスをクリアすることができます。 確認ステータスはNULLになります。
コメント。
クラスタのコメントを開きます。 特定のクラスタのコメントを表示したり、追加したりすることができます。 コメントを追加すると、クラスタの監査証跡に表示されます。
タスクを完了します。
タスク内のすべてのクラスタを確認した後、タスクの作業を完了したことを示すことができます。 ワークフローでは、タスクを完了するために選択できるオプションが定義されています。

クラスタの編集

クラスタ内のレコードを調べ、優先レコードのフィールドに追加するデータの値を選択します。 複数のレコードからフィールドを選択して優先レコードに追加できます。
タスクのクラスタが、[データ編集]パネルの一連のタブに表示されます。 デフォルトで最初のクラスタが開きます。
次の手順に従ってクラスタを編集します。
    1. 重複修正タスクを開きます。
    タスクのクラスタが[例外]ワークスペースに表示されます。
    2. タブをクリックしてクラスタを開きます。
    重複レコードが優先レコードの下に表示されます。
    3. 優先レコードをクラスタ内の他のレコードと比較します。
    クラスタ内の各カラムで最も正確な値を特定します。
    4. [編集]をクリックします。
    5. 優先レコードに移動する重複レコードの値をクリックします。
優先レコードに移動するすべての値に対して同じ手順を繰り返します。 クラスタの作業を完了したら、クラスタを確認したことを確定します。

クラスタの作成

現在のクラスタに一意のレコードが含まれている場合に、クラスタを作成します。 一意のレコードを新しいクラスタに移動します。
    1. [データ編集]パネルでクラスタを開きます。
    2. [クラスタアクション] > [クラスタの作成]をクリックします。
    [データ編集]パネルで、現在のクラスタの下に空のクラスタが表示されます。
    3. クラスタに追加するレコードを選択します。
    4. [レコードの移動]をクリックします。
    そのレコードが、作成したクラスタの優先レコードになります。
    5. 優先レコードに一致する他のレコードを、作成したクラスタに移動します。
    作成したクラスタに1つのレコードが含まれている場合、優先レコードは一意のレコードになります。

複数のクラスタ内の重複レコードの検索

現在のクラスタ内のレコードに一致する可能性のあるレコードを、他のクラスタ内で検索することができます。 検索するデータの値を入力し、そのデータの値を含むレコードカラムを入力します。
    1. [データ編集]パネルで、[クラスタアクション] > [クラスタの検索]をクリックします。
    [検索]ダイアログボックスが表示されます。
    2. 検索するデータの値を入力します。 レコードカラムに表示されているとおりに完全なデータの値を入力することも、アスタリスク(*)またはパーセント記号(%)のワイルドカード文字字をテキストパターンで使用することもできます。
    3. 探すデータの値が入ったカラムを選択します。
    4. [検索]をクリックします。
    検索操作により、検索対象の値を含んだすべてのレコードが返されます。
    5. 開いているクラスタ内のレコードと一致するレコードを、検索結果の中から選択します。 [Ctrl]キーを使用すると複数のレコードを選択することができます。
    [データ編集]パネルに、選択したレコードを含んだクラスタが表示されます。 レコードを選択して[レコードの移動]をクリックし、レコードをクラスタ間で移動します。

クラスタのステータスの設定

クラスタの作業を完了したら、クラスタを確認したことを確定します。 確認を確定する際、レコードの確認ステータスを[REVIEWED]に設定します。
    1. [データ編集]パネルでクラスタを開きます。
    2. [編集]をクリックします。
    3. [クラスタアクション] > [クラスタの確認を確定]をクリックします。
    4. [REVIEWED]ステータスをクリアするには、[クラスタアクション] > [クラスタのステータスをクリア]をクリックします。

クラスタへのコメントの追加

データに関する注記や情報を保存するために、クラスタにコメントを追加できます。 コメントはデータ監査証跡に表示されます。
    1. [データ編集]パネルでクラスタを開きます。
    2. [編集]をクリックします。
    3. [クラスタアクション] > [コメント]をクリックします。
    4. [コメント]ダイアログボックスにテキストを入力します。