Data Engineering Integration
ここでは、バージョン10.4.0の新しいData Engineering Integration機能について説明します。
新しいデータ型のサポート
バージョン10.4.0では、次の新しいデータ型を複合ファイルで使用できます。
- • ネイティブ環境またはHadoop環境でAvroとParquetの複合ファイルオブジェクトへの読み取り/書き込みを行うマッピングを実行する場合、次のデータ型を使用できます。
- - Date
- - Decimal
- - Timestamp
- •Timeデータ型を使用して、ネイティブ環境またはBlazeエンジンでAvroやParquetの複合ファイルオブジェクトに対して読み取り/書き込みができます。
- •Databricks Sparkエンジンでマッピングを実行する場合は、Date、Time、Timestamp、およびDecimalデータ型を使用できます。
新しいデータ型は次のアダプタに適用できます。
- •PowerExchange for HDFS
- •PowerExchange for Amazon S3
- •PowerExchange for Google Cloud Storage
- •PowerExchange for Microsoft Azure Blob Storage
- •PowerExchange for Microsoft Azure Data Lake Storage Gen1
- •PowerExchange for Microsoft Azure Data Lake Storage Gen2
データ型の詳細については、Data Engineering Integration 10.4.0ユーザーガイドのデータ型リファレンスに関する章を参照してください。
AWS Databricksの統合
バージョン10.4.0では、InformaticaドメインをAWSのDatabricksと統合できます。
AWS Databricksを使用して、次の機能でマッピングを実行できます。
AWS Databricksでは、Azure Databricksと同じデータ型がサポートされます。
詳細については、次のガイドを参照してください。
- •Data Engineering 10.4.0統合ガイド
- •Data Engineering 10.4.0管理者ガイド
- •Data Engineering Integration10.4.0ユーザーガイド
- •Informatica 10.4.0 Developerワークフローガイド
HDInsightからALDS Gen2リソースにアクセスするためのクラスタワークフロー
バージョン10.4.0では、クラスタワークフローを作成して、Azure HDInsightクラスタで実行し、ADLS Gen2リソースにアクセスできます。
クラスタワークフローの詳細については、Informatica Data Engineering Integration 10.4.0ユーザーガイドを参照してください。
Databricks Delta Lakeストレージへのアクセス
バージョン10.4.0では、Databricks Delta Lakeストレージにソースおよびターゲットとしてアクセスできます。
マッピングでAWSおよびAzureプラットフォームのDelta Lakeリソースにアクセスできます。
Delta Lakeテーブルへのアクセス設定の詳細については、Data Engineering Integrationガイドを参照してください。Delta Lakeテーブルへアクセスするマッピングの作成の詳細については、Data Engineering Integrationユーザーガイドを参照してください。
マッピングで使用するノードの表示
バージョン10.4.0では、指定の期間内のマッピングで使用するクラスタノードの最大数を確認できます。
REST Operations Hub APIのClusterStats(startTimeInmillis=[value], endTimeInmillis=[value])を使用して、指定の期間内のマッピングで使用するクラスタ設定のHadoopノードの最大数を確認できます。
REST APIの詳細については、Data Engineering10.4.0管理者ガイドのMonitoring REST APIリファレンスに関する章を参照してください。
ログの集計
バージョン10.4.0では、Hadoop環境で実行されたデプロイ済みマッピングの集計ログを取得できます。
MonitoringツールでジョブIDに基づいてマッピングの集計クラスタログを収集するか、またはinfacmd ms fetchAggregatedClusterLogsコマンドを使用して収集できます。ジョブIDに基づいたマッピングの集計クラスタログを.zipファイルまたはtar.gzファイルで取得して、この圧縮した集計ログファイルをターゲットディレクトリに書き込むことができます。
詳細については、『Informatica 10.4.0管理者ガイド』を参照してください。
Sparkエンジンでの階層データの解析
10.4.0では、複合関数を使用して最大5 MBのマッピングのデータ中間ストリームを解析できます。
Sparkエンジンでは、次の複合関数を使用してraw文字列ソースデータを解析できます。
複合関数は、ソース文字列内のJSONまたはXMLデータを解析し、構造ターゲットデータを生成します。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』の階層データの処理に関する章を参照してください。
複合関数の詳細については、『Informatica 10.4.0 Developerトランスフォーメーション言語リファレンス』の「関数」の章を参照してください。
Sparkエンジンでのプロファイルとサンプリングオプション
バージョン10.4.0では、Sparkでプロファイルを実行しサンプリングオプションを選択できます。
- Sparkエンジンでのプロファイリング
- Informatica DeveloperおよびInformatica Analystツールでは、Sparkエンジン上でプロファイルを作成および実行できます。Sparkエンジンでデータドメイン検出を実行およびスコアカードを作成できます。
- Sparkエンジンでのサンプリングオプション
- Sparkエンジンで次のサンプリングオプションを選択してプロファイルを実行できます。
Sparkエンジンでのプロファイルおよびサンプリングオプションの詳細については、Informatica 10.4.0のデータ検出ガイドを参照してください。
Pythonトランスフォーメーション
バージョン10.4.0では、Pythonトランスフォーメーションの機能は次のとおりです。
アクティブモード
アクティブPythonトランスフォーメーションを作成できます。Pythonトランスフォーメーションはアクティブトランスフォーメーションであるため、トランスフォーメーション通過する行の数を変更することができます。例えば、Pythonトランスフォーメーションは、単一の入力行から複数の出力行を生成、または複数の入力行から単一の出力行を生成できます。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。
パーティション化されたデータ
Pythonコードを実行し、そのデータのデフォルトのパーティション化スキームに基づいて受信データを処理できます。またはPythonコードを実行する前にデータを再パーティションできます。Pythonコードを実行する前にデータを再パーティションするには、1つ以上の入力ポートをパーティションキーとして選択します。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。
Sqoop
バージョン10.4.0では、JDBC接続で次のSqoop引数を設定できます。
- •--update-key
- •--update-mode
- •--validate
- •--validation-failurehandler
- •--validation-threshold
- •--validator
- •--mapreduce-job-name
- •--bindir
- •--class-name
- •--jar-file
- •--outdir
- •--package-name
これらのSqoop引数の設定の詳細については、Sqoopのマニュアルを参照してください。