Data Engineering Integration
ここでは、バージョン10.4.0のData Engineering Integrationへの変更について説明します。
Databricksの日付/時刻形式
バージョン10.4.0では、Databricks Sparkエンジンが日付/時刻の値の読み込みおよび書き込みを行う場合、YYYY-MM-DD HH24:MM:SS.US形式が使用されます。
以前は、Developer toolの実行設定のマッピングプロパティで形式を設定していました。
Databricksエンジンの日付/時刻データを引き続き使用するには、追加タスクの実行が必要になる場合があります。詳細については、『Data Engineering 10.4.0 Integration Guide』の「Databricks Integration」の章を参照してください。
階層データのプレビュー
バージョン10.4.0では、データ統合サービスはSpark Jobserverを使用して階層データをプレビューします。Spark Jobserverを使用すると、各ジョブのコンテキストを更新する代わりに、実行中のSparkコンテキストを維持するため、データプレビュージョブが迅速になります。Amazon EMR、Cloudera CDH、およびHortonworks HDPで実行するように設定されたマッピングは、Spark Jobserverを使用して階層データをプレビューします。
以前は、データ統合サービスはすべての階層データプレビュージョブでspark-submitスクリプトを使用していました。Azure HDInsightおよびMapRで実行するように設定されたマッピングは、spark-submitスクリプトを使用して階層データをプレビューします。Azure HDInsightおよびMapRで実行するように設定されたマッピングのデータをプレビューでは、テクニカルプレビューが可能です。
詳細については、『Data Engineering Integration 10.4.0 User Guide』の「Hierarchical Data Processing」の章を参照してください。
共有体トランスフォーメーション
バージョン10.4.0では、データプレビュー時のプレビューポイントとして共有体トランスフォーメーションを選択できます。以前は、共有体トランスフォーメーションはプレビューポイントとしてサポートされていませんでした。
infacmd dpコマンド
infacmd dpプラグインを使用すると、データプレビュー操作を実行できます。infacmd dpコマンドを使用し、Spark Jobserverの開始と停止を手動で操作します。
次の表に、infacmd dpコマンドの説明を示します。
コマンド | 説明 |
|---|
startSparkJobServer | 統合サービスマシンでspark-jobserverを開始します。 デフォルトでは、階層データをプレビューするとspark-jobserverが開始します。 |
stopSparkJobServer | 指定の統合サービスで実行されているspark-jobserverを停止します。 デフォルトでは、spark-jobserverは、60分間アイドル状態であった場合またはデータ統合サービスが停止したかリサイクルされた場合に停止します。 |
詳細については、『Informatica 10.4.0コマンドリファレンス』の「infacmd dpコマンドリファレンス」の章を参照してください。
ターゲットのNULL値
バージョン10.4.0では、データを複雑なファイルに書き込む場合、次の変更が適用されます。
- •マッピングソースにNULL値が含まれ、[ターゲットの作成]オプションを使用してParquetターゲットファイルを作成する場合、デフォルトのスキーマにはオプションフィールドが含まれ、NLL値をターゲットに挿入できます。
以前は、すべてのフィールドがデフォルトスキーマの必須として作成され、ターゲットスキーマで「必須」から「オプション」にデータ型を手動で更新し、NULL値のカラムをターゲットに書き込む必要がありました。
- •マッピングソースにNULL値が含まれ、[ターゲットの作成]オプションを使用してAvroターゲットファイルを作成する場合、NULL値はデフォルトスキーマで定義されるため、NLL値をターゲットに挿入できます。
以前は、NULL値はデフォルトスキーマで定義されず、デフォルトターゲットスキーマを手動で更新し、「NULL」データ型をスキーマに追加する必要がありました。
注: NULL値をターゲットに追加できないようにするには、スキーマを手動で編集できます。マッピングフローを有効にして、ターゲットにNULL値を追加できないようにスキーマを編集することはできません。
これらの変更は次のアダプタに適用されます。
- •PowerExchange for HDFS
- •PowerExchange for Amazon S3
- •PowerExchange for Google Cloud Storage
- •PowerExchange for Microsoft Azure Blob Storage
- •PowerExchange for Microsoft Azure Data Lake Storage Gen1
Pythonトランスフォーメーション
バージョン10.4.0では、配列resourceFilesArrayのインデックスを参照すると、Pythonコードのリソースファイルにアクセスできます。バージョン10.4.0で作成する新しいマッピングでresourceFilesArrayを使用します。
以前は、配列の名前がresourceJepFileでした。resourceJepFileを使用するアップグレード後のマッピングは引き続き正常に実行されます。
詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。