データ品質アセット > 部 II: クレンジングアセット > クレンジングアセットの概要 > クレンジングの設定
  

クレンジングの設定

クレンジングアセットは、インスタンスとステップで構成されています。インスタンスによって、クレンジングおよびマージ操作を実行できる入力フィールドを指定します。ステップとは、入力に対して定義する個別のクレンジング操作です。
インスタンスで指定した入力フィールドに対して、1つ以上のクレンジングステップを定義します。インスタンスに追加する入力フィールドと入力フィールドに対して定義するステップは、ビジネス要件とデータの内容に応じて異なります。インスタンスには1つ以上の入力フィールドを追加できます。

プロセスフローのクレンジング

データをクレンジングするには、Data Qualityデータ統合でアセットを設定して実行します。
クレンジングプロセスには以下の手順が含まれます。
  1. 1ソースデータの内容を分析して、クリーンアップが必要なフィールドを特定できるようにします。これらのデータセットは、開発者またはデータスチュワードと連携して解析します。クレンジングアセットインスタンスのソースデータカラムを表す入力を作成します。
  2. 分析中に、次の手順を実行します。
    1. aビジネス要件を検証します。
    2. bデータの内容と構造を検証します。
    3. cデータに適用するクレンジング操作のシーケンスを決定します。
  3. 2ビジネス要件を1つ以上のクレンジングインスタンスに変換するようにクレンジングアセットを設定します。インスタンス内の入力フィールドが、特定のインスタンスで定義したロジックを介して処理されます。
  4. アセットを設定するには、以下の手順を実行します。
    1. aソースデータでクレンジングが必要な入力フィールドに1つ以上のインスタンスを追加します。
    2. b各インスタンスで指定した入力フィールドに対して、1つ以上のステップを設定します。
    3. c必要に応じて、入力フィールドのマージ操作を設定します。
  5. 3データ統合で、クレンジング操作を実行できるマッピングを定義します。
    1. aクレンジングアセットをクレンジングトランスフォーメーションに追加します。
    2. bクレンジングアセットの入力と出力フィールドをマッピングのアップストリームとダウンストリームオブジェクトに接続します。
  6. 4マッピングを実行します。
注:
クレンジングトランスフォーメーションでは、各アセット入力が発生したインスタンスは識別されません。クレンジングアセットに複数のインスタンスを定義した場合は、各入力が属するインスタンスのレコードを作成します。アセット入力をトランスフォーメーション入力フィールドに接続するときは、レコードをガイドとして使用します。

例: 顧客データのクリーンアップ

あなたが組織のデータアナリストとして顧客データのクレンジングを試みているとします。顧客データセットには、名前、性別、住所のフィールドなど、顧客の連絡先データ用の複数のフィールドが含まれています。複数のフィールドでクレンジング操作を行うには、単一のクレンジングアセットを設定します。
組織の顧客データレコードには、次のような情報が含まれています。
敬称
ファーストネーム
ミドルネーム
名字
性別
住所
Dr.
John
William
smith
Male
2101 massachusetts ave nw
washington dc 20008-2811
usa
Mr.
Mr. Frances
folsom
cleveland
Man
18 broomfield ridge
midleton
co. cork
p25 kn66
IRE
Miss
Miss.Abigail
powers
Fillmore
Female
shop 7 208 adelaide st
brisbane city qld 4000
aus
レコードに対して次のような操作を実行することをお勧めします。
データに対して実行するクレンジング操作のタイプに基づいて、4つのインスタンスでクレンジングアセットを設定します。各インスタンスに1つ以上の入力フィールドを追加し、それぞれの場合に入力フィールドに適用するステップを定義します。
例えば、[ミドルネーム]フィールドと[名字]フィールドで最初の文字を大文字に変更するには、アセットにインスタンスを作成して2つの入力フィールドを追加します。入力フィールド名として[ミドルネーム]および[名字]と指定します。インスタンスで指定したフィールドで[大文字小文字変換]操作を実行するステップを設定します。
同様に、住所と国の略語データの文字を大文字に変更するようにインスタンスを設定します。データの文字を大文字に変換するステップを追加します。さらに、複数の文字スペースを単一のスペースに置き換えるステップを追加します。住所や国など、入力に適した名前を指定します。
注:
国の入力には文字スペースが含まれていないため、スペースを削除するステップロジックによって、関連する入力フィールドのデータが変更されることはありません。
作成したアセットをマッピングのクレンジングトランスフォーメーションに追加します。マッピングが実行されると、トランスフォーメーションによって、アセットインスタンスで定義した標準化操作が選択したフィールドに適用されます。
さらに、[ファーストネーム]、[ミドルネーム]、および[名字]フィールドのクレンジングされたデータを単一のフィールドにマージする場合は、入力フィールドでマージ操作を実行するようにアセットを設定します。
マージレコードを作成して、マージするフィールドを追加します。マージされたフィールド名を[フルネーム]として指定します。