構造パーサートランスフォーメーション
構造パーサートランスフォーメーションは、インテリジェント構造モデルに基づいて、入力データをユーザー定義の構造化形式に変換します。構造パーサートランスフォーメーションを使用して、ログファイル、クリックストリーム、XMLファイルまたはJSONファイル、Wordテーブル、およびその他の非構造化形式または半構造化形式などのデータを分析できます。
構造パーサートランスフォーメーションは次のタイプのソースに接続できます。
- •ローカル入力ファイルを処理するためのフラットファイルに基づくソーストランスフォーメーション
- •HDFSでの入力ファイルのストリーミングやローカル入力ファイルの処理を行うための、Hadoop Files V2接続に基づくソーストランスフォーメーション
構造パーサートランスフォーメーションの設定時に、このトランスフォーメーションをインテリジェント構造モデルに関連付けます。インテリジェント構造モデルとは、実行時にモデルが解析することが想定されるデータを表すためにインテリジェント構造検出によって生成されるアセットです。モデルは、構造パーサートランスフォーメーションを設定する前、または構造パーサートランスフォーメーションの設定時に作成できます。
インテリジェント構造検出は、入力データのサンプルまたは提供されたスキーマに基づいてインテリジェント構造モデルを生成します。モデルは次のような入力タイプから作成することができます。
- •Avroファイル
- •COBOLコピーブック
- •PDFフォームフィールド内のデータ
- •Microsoft Wordテーブル内のデータ
- •JSONファイル
- •機械生成されたファイル(Webログやクリックストリームなど)
- •Microsoft Excelファイル
- •ORCファイル
- •PDFファイル
- •Parquetファイル
- •テキストファイル(CSVファイルなどの区切りファイルやテキスト階層を含む複雑なファイルを含む)
- •XMLファイル
- •XSDファイル
インテリジェント構造検出によって
インテリジェント構造モデルが生成された後に、そのモデルを調整して出力データの構造をカスタマイズできます。モデルのノードを編集し、ノードの結合、除外、フラット化、または縮小を行うことができます。
インテリジェント構造モデルの詳細については、「Refining intelligent structure models」を参照してください。