正規表現による解析
正規表現を使用して、入力フィールドの指定されている文字構造に一致する値を見つけることができます。見つける値の構造に一致する正規表現を作成します。または、アセットの組み込みの式のリストから正規表現を選択します。
すべての値のコンテンツを予測できない場合、または検索する値の範囲が大きすぎてディクショナリに追加できない場合は、ディクショナリの代わりに正規表現を使用します。
実行時に、解析トランスフォーメーションは正規表現ロジックを入力フィールドの値に適用します。トランスフォーメーションは、正規表現ロジックに一致する構造を持つ値を見つけると、その値をステップで指定された出力フィールドに書き込みます。
例: 米国の電話番号と社会保障番号
顧客データセットに電話番号のカラムが含まれていることがあります。長年にわたり、多くのユーザーはそのカラムに誤って社会保障番号を入力しています。解析アセットを設定して、両方の形式に一致する値を見つけることができます。
次の表は、カラムに表示される可能性があるエラーのタイプを示します。
値 | 形式 |
---|
212-555-1234 | 電話番号 |
910-22-5555 | 社会保障番号 |
(518)555-8466 | 電話番号 |
(718) 555-2907 | 電話番号 |
2125550987 | 電話番号 |
922-823-5746 | 社会保障番号 |
974-43-0202 | 社会保障番号 |
212-555-3287 | 電話番号 |
データ形式ごとにステップを作成し、正規表現を各ステップに追加します。
例えば、解析アセットには米国の電話番号に対する次のような組み込みの正規表現が含まれています。
1?[-. ]?\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}?(?:EXT|ext|Ext|X|x|#|\.| |,)*[0-9]{3,5}|1?[-. ]?\(?[0-9]{3}\)?[-.]?[0-9]{3}[-.]?[0-9]{4}
このアセットには、米国の社会保障番号に対する次のような組み込みの正規表現が含まれています。
(.*)([0-9]{3}[- ]?[0-9]{2}[- ]?[0-9]{4})(.*)
単一の出力を電話番号と社会保障番号のステップにそれぞれ追加します。