ラベラーアセット > ラベラーアセットの概要 > ラベラーアセットを使用する状況
  

ラベラーアセットを使用する状況

ラベラーアセットによって、入力文字列の値に説明的なラベルを割り当てます。
以下の例に、分析を実行する場合にラベラーアセットを使用する状況を示します。
ディクショナリでビジネス情報を検証する
データセットに、組織内の在庫管理単位(SKU)番号のセットといった既知の値の有限なセットに対応する値のフィールドが含まれているとします。値のディクショナリを使用することで、想定されるデータがフィールドに含まれていることを検証できます。
ディクショナリを読み取るトークンラベル適用ステップを作成し、SKU値を含んだディクショナリをステップに追加します。次に、ステップのラベル名を指定します。例えば、ラベルとしてSKUを指定できます。
作成したアセットをマッピングのラベラートランスフォーメーションに追加します。マッピングを実行すると、トランスフォーメーションでは入力フィールドの値がステップで指定したディクショナリの値と比較されます。マッピングによって、検出された各SKU値のテキストラベルが出力フィールドに書き込まれます。
ディクショナリ値と一致しない値にラベルを適用するようにステップを設定することもできます。この場合、入力値がディクショナリの値と一致しないと、マッピングによってテキストラベルが出力フィールドに書き込まれます。このような場合は、INCORRECTなどの別のラベルを指定することができます。不正な値が検出されるようにするには、ステップで[排他]オプションを選択します。
文字形式でデータを識別する
顧客データセットに連絡先データのカラムが含まれているとします。このカラムは電子メールアドレスを入力するためのものですが、ユーザーが電話番号、国名、郵便番号などの他の値を入力している場合があります。正規表現を使用することで、電子メールアドレスが含まれたフィールドを検証できます。
例えば、次の文字列を電子メールアドレスとしてラベル付けするようにアセットを設定できます。
info@informatica.com
正規表現のトークンラベル適用ステップを作成して、電子メールのデータ形式を表す式を追加します。検索する形式を示す正規表現を入力します。または、アセットの組み込みの式のリストから正規表現を選択します。式の形式と一致する値に、ステップによって適用されるラベル名として「EMAIL」を指定します。
実行時に、ラベラートランスフォーメーションによって正規表現ロジックが入力フィールドの値に適用されます。式ロジックと一致する形式の値が検出された場合、トランスフォーメーションは、指定したラベルを出力フィールドに書き込みます。出力フィールドには、適切な形式を持つ電子メールアドレスに対して「EMAIL」というラベルが含まれ、電子メールアドレスでない値についてはデータが元の形式で含まれるようになります。
入力データの構造を確認する
組織は、従業員の電話番号を(212)555-12122125551212、および+212-555-1212というパターンで保存している場合があります。文字セットを使用して、電話番号の構造を確認できます。
サポートする電話番号構造ごとに、文字ラベル適用モードのステップを作成します。カスタム文字セットを追加するか、アセットに組み込まれている文字セットを選択します。文字セットの内容に一致する入力文字にラベルを適用するようにアセットを構成します。電話データに、句読文字の場合はP、数字の場合はD、スペースの場合はSのラベル名を指定するとします。
トランスフォーメーションは、定義した文字セットのメンバーに一致する文字を見つけると、出力内の文字に対して指定したラベルを書き込みます。例えば、ラベル適用操作では、電話番号「(212)555-1212」を読み取り、ラベル「PDDDPDDDPDDD」を返します。

データに適したラベル適用モードの選択

トークンラベル適用と文字ラベル適用は、正しいデータ値と正しくないデータ値を識別するという点においては同等に機能します。選択するラベル適用モードは、データで見つけるエラーの種類によって変わります。ユーザーが間違ったフィールドに有効なデータを追加した場合、文字ラベル適用がより高い効果を発揮します。トークンラベル適用は、フィールドデータの正確性が最重要であり、不正確なデータを見つけたい場合に役立ちます。
次のケースを考えてみてください。