リリースガイド > 部 I: バージョン10.4.0 > 変更点（10.4.0） > Data Engineering Integration

Data Engineering Integration

ここでは、バージョン10.4.0のData Engineering Integrationへの変更について説明します。

Databricksの日付/時刻形式

バージョン10.4.0では、Databricks Sparkエンジンが日付/時刻の値の読み込みおよび書き込みを行う場合、YYYY-MM-DD HH24:MM:SS.US形式が使用されます。

以前は、Developer toolの実行設定のマッピングプロパティで形式を設定していました。

Databricksエンジンの日付/時刻データを引き続き使用するには、追加タスクの実行が必要になる場合があります。詳細については、『Data Engineering 10.4.0 Integration Guide』の「Databricks Integration」の章を参照してください。

階層データのプレビュー

バージョン10.4.0では、データ統合サービスはSpark Jobserverを使用して階層データをプレビューします。Spark Jobserverを使用すると、各ジョブのコンテキストを更新する代わりに、実行中のSparkコンテキストを維持するため、データプレビュージョブが迅速になります。Amazon EMR、Cloudera CDH、およびHortonworks HDPで実行するように設定されたマッピングは、Spark Jobserverを使用して階層データをプレビューします。

以前は、データ統合サービスはすべての階層データプレビュージョブでspark-submitスクリプトを使用していました。Azure HDInsightおよびMapRで実行するように設定されたマッピングは、spark-submitスクリプトを使用して階層データをプレビューします。Azure HDInsightおよびMapRで実行するように設定されたマッピングのデータをプレビューでは、テクニカルプレビューが可能です。

詳細については、『Data Engineering Integration 10.4.0 User Guide』の「Hierarchical Data Processing」の章を参照してください。

共有体トランスフォーメーション

バージョン10.4.0では、データプレビュー時のプレビューポイントとして共有体トランスフォーメーションを選択できます。以前は、共有体トランスフォーメーションはプレビューポイントとしてサポートされていませんでした。

infacmd dpコマンド

infacmd dpプラグインを使用すると、データプレビュー操作を実行できます。infacmd dpコマンドを使用し、Spark Jobserverの開始と停止を手動で操作します。

次の表に、infacmd dpコマンドの説明を示します。

コマンド	説明
startSparkJobServer	統合サービスマシンでspark-jobserverを開始します。デフォルトでは、階層データをプレビューするとspark-jobserverが開始します。
stopSparkJobServer	指定の統合サービスで実行されているspark-jobserverを停止します。デフォルトでは、spark-jobserverは、60分間アイドル状態であった場合またはデータ統合サービスが停止したかリサイクルされた場合に停止します。

詳細については、『Informatica 10.4.0コマンドリファレンス』の「infacmd dpコマンドリファレンス」の章を参照してください。

ターゲットのNULL値

バージョン10.4.0では、データを複雑なファイルに書き込む場合、次の変更が適用されます。

•マッピングソースにNULL値が含まれ、［ターゲットの作成］オプションを使用してParquetターゲットファイルを作成する場合、デフォルトのスキーマにはオプションフィールドが含まれ、NLL値をターゲットに挿入できます。

以前は、すべてのフィールドがデフォルトスキーマの必須として作成され、ターゲットスキーマで「必須」から「オプション」にデータ型を手動で更新し、NULL値のカラムをターゲットに書き込む必要がありました。

•マッピングソースにNULL値が含まれ、［ターゲットの作成］オプションを使用してAvroターゲットファイルを作成する場合、NULL値はデフォルトスキーマで定義されるため、NLL値をターゲットに挿入できます。

以前は、NULL値はデフォルトスキーマで定義されず、デフォルトターゲットスキーマを手動で更新し、「NULL」データ型をスキーマに追加する必要がありました。

注: NULL値をターゲットに追加できないようにするには、スキーマを手動で編集できます。マッピングフローを有効にして、ターゲットにNULL値を追加できないようにスキーマを編集することはできません。

これらの変更は次のアダプタに適用されます。

•PowerExchange for HDFS
•PowerExchange for Amazon S3
•PowerExchange for Google Cloud Storage
•PowerExchange for Microsoft Azure Blob Storage
•PowerExchange for Microsoft Azure Data Lake Storage Gen1

Pythonトランスフォーメーション

バージョン10.4.0では、配列resourceFilesArrayのインデックスを参照すると、Pythonコードのリソースファイルにアクセスできます。バージョン10.4.0で作成する新しいマッピングでresourceFilesArrayを使用します。

以前は、配列の名前がresourceJepFileでした。resourceJepFileを使用するアップグレード後のマッピングは引き続き正常に実行されます。

詳細については、『Informatica Data Engineering Integration 10.4.0ユーザーガイド』のPythonトランスフォーメーションに関する章を参照してください。