リリースガイド > 部 I: バージョン10.4.0 > 新機能(10.4.0) > Data Engineering Integration
  

Data Engineering Integration

ここでは、バージョン10.4.0の新しいData Engineering Integration機能について説明します。

新しいデータ型のサポート

バージョン10.4.0では、次の新しいデータ型を複合ファイルで使用できます。
新しいデータ型は次のアダプタに適用できます。
データ型の詳細については、Data Engineering Integration 10.4.0ユーザーガイドのデータ型リファレンスに関する章を参照してください。

AWS Databricksの統合

バージョン10.4.0では、InformaticaドメインをAWSのDatabricksと統合できます。
AWS Databricksを使用して、次の機能でマッピングを実行できます。
AWS Databricksでは、Azure Databricksと同じデータ型がサポートされます。
詳細については、次のガイドを参照してください。

HDInsightからALDS Gen2リソースにアクセスするためのクラスタワークフロー

バージョン10.4.0では、クラスタワークフローを作成して、Azure HDInsightクラスタで実行し、ADLS Gen2リソースにアクセスできます。
クラスタワークフローの詳細については、Informatica Data Engineering Integration 10.4.0ユーザーガイドを参照してください。

Databricks Delta Lakeストレージへのアクセス

バージョン10.4.0では、Databricks Delta Lakeストレージにソースおよびターゲットとしてアクセスできます。
マッピングでAWSおよびAzureプラットフォームのDelta Lakeリソースにアクセスできます。
Delta Lakeテーブルへのアクセス設定の詳細については、Data Engineering Integrationガイドを参照してください。Delta Lakeテーブルへアクセスするマッピングの作成の詳細については、Data Engineering Integrationユーザーガイドを参照してください。

マッピングで使用するノードの表示

バージョン10.4.0では、指定の期間内のマッピングで使用するクラスタノードの最大数を確認できます。
REST Operations Hub APIのClusterStats(startTimeInmillis=[value], endTimeInmillis=[value])を使用して、指定の期間内のマッピングで使用するクラスタ設定のHadoopノードの最大数を確認できます。
REST APIの詳細については、Data Engineering10.4.0管理者ガイドのMonitoring REST APIリファレンスに関する章を参照してください。

ログの集計

バージョン10.4.0では、Hadoop環境で実行されたデプロイ済みマッピングの集計ログを取得できます。
MonitoringツールでジョブIDに基づいてマッピングの集計クラスタログを収集するか、またはinfacmd ms fetchAggregatedClusterLogsコマンドを使用して収集できます。ジョブIDに基づいたマッピングの集計クラスタログを.zipファイルまたはtar.gzファイルで取得して、この圧縮した集計ログファイルをターゲットディレクトリに書き込むことができます。
詳細については、『Informatica 10.4.0管理者ガイド』を参照してください。

Sparkエンジンでの階層データの解析

10.4.0では、複合関数を使用して最大5 MBのマッピングのデータ中間ストリームを解析できます。
Sparkエンジンでは、次の複合関数を使用してraw文字列ソースデータを解析できます。
複合関数は、ソース文字列内のJSONまたはXMLデータを解析し、構造ターゲットデータを生成します。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』の階層データの処理に関する章を参照してください。
複合関数の詳細については、『Informatica 10.4.0 Developerトランスフォーメーション言語リファレンス』の「関数」の章を参照してください。

Sparkエンジンでのプロファイルとサンプリングオプション

バージョン10.4.0では、Sparkでプロファイルを実行しサンプリングオプションを選択できます。
Sparkエンジンでのプロファイリング
Informatica DeveloperおよびInformatica Analystツールでは、Sparkエンジン上でプロファイルを作成および実行できます。Sparkエンジンでデータドメイン検出を実行およびスコアカードを作成できます。
Sparkエンジンでのサンプリングオプション
Sparkエンジンで次のサンプリングオプションを選択してプロファイルを実行できます。
Sparkエンジンでのプロファイルおよびサンプリングオプションの詳細については、Informatica 10.4.0のデータ検出ガイドを参照してください。

Pythonトランスフォーメーション

バージョン10.4.0では、Pythonトランスフォーメーションの機能は次のとおりです。

アクティブモード

アクティブPythonトランスフォーメーションを作成できます。Pythonトランスフォーメーションはアクティブトランスフォーメーションであるため、トランスフォーメーション通過する行の数を変更することができます。例えば、Pythonトランスフォーメーションは、単一の入力行から複数の出力行を生成、または複数の入力行から単一の出力行を生成できます。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。

パーティション化されたデータ

Pythonコードを実行し、そのデータのデフォルトのパーティション化スキームに基づいて受信データを処理できます。またはPythonコードを実行する前にデータを再パーティションできます。Pythonコードを実行する前にデータを再パーティションするには、1つ以上の入力ポートをパーティションキーとして選択します。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。

Sqoop

バージョン10.4.0では、JDBC接続で次のSqoop引数を設定できます。
これらのSqoop引数の設定の詳細については、Sqoopのマニュアルを参照してください。