What's New and Changed (10.5.7) > Teil X: Versionen 10.4-10.4.0.2 > Änderungen in 10.4 > Data Engineering Integration

Data Engineering Integration

In diesem Abschnitt werden Änderungen bei Data Engineering Integration in Version 10.4.0 beschrieben.

Datenvorschau

Ab Version 10.4.0 nutzt der Datenintegrationsdienst den Spark-Jobserver, um eine Vorschau der Daten auf der Spark-Engine anzuzeigen. Der Spark-Jobserver beschleunigt die Datenvorschau-Jobs, weil ein laufender Spark-Kontext beibehalten wird, anstatt den Kontext für jeden Job zu aktualisieren. Zuordnungen, die für die Ausführung mit Amazon EMR, Cloudera CDH und Hortonworks HDP konfiguriert sind, verwenden den Spark-Jobserver für die Vorschau von Daten.

Früher verwendete der Datenintegrationsdienst spark-submit-Skripts für alle Vorschaujobs auf der Spark-Engine. Zuordnungen, die für die Ausführung mit Azure HDInsight und MapR konfiguriert sind, nutzen spark-submit-Skripts für die Vorschau von Daten. Die Vorschau von Daten für Zuordnungen, die für die Ausführung mit Azure HDInsight und MapR konfiguriert sind, ist für die technische Vorschau verfügbar.

Weitere Informationen finden Sie im Kapitel „Datenvorschau“ im Data Engineering Integration 10.4.0-Benutzerhandbuch.

Union-Umwandlung

Ab Version 10.4.0 können Sie eine Union-Umwandlung als Vorschaupunkt für die Vorschau von Daten wählen. Zuvor wurde die Union-Umwandlung nicht als Vorschaupunkt unterstützt.

infacmd dp-Befehle

Sie können das infacmd dp-Plugin verwenden, um Datenvorschauvorgänge durchzuführen. Nutzen Sie infacmd dp-Befehle, um den Spark-Jobserver manuell zu starten und anzuhalten.

In der folgenden Tabelle werden infacmd dp-Befehle beschrieben:

Befehl	Beschreibung
startSparkJobServer	Startet den Spark-Jobserver auf dem Computer des Integrationsdiensts. Der Spark-Jobserver wird standardmäßig gestartet, wenn Sie hierarchische Daten in der Vorschau anzeigen.
stopSparkJobServer	Stoppt den auf dem angegebenen Integrationsdienst ausgeführten Spark-Jobserver. Standardmäßig wird der Spark-Jobserver angehalten, wenn er 60 Minuten im Leerlauf ausgeführt wird oder wenn der Datenintegrationsdienst angehalten oder wiederhergestellt wird.

Weitere Informationen finden Sie im Kapitel „infacmd dp-Befehlsreferenz“ der Informatica 10.4.0-Befehlsreferenz.

Datums-/Uhrzeitformat in Databricks

Ab Version 10.4.0 verwendet die Databricks-Spark-Engine beim Lesen und Schreiben von Datums-/Uhrzeitwerten das Format YYYY-MM-DD HH24:MM:SS.US.

Zuvor legten Sie das Format in den Zuordnungseigenschaften für die Laufzeiteinstellungen des Developer tool fest.

Möglicherweise müssen Sie zusätzliche Aufgaben durchführen, um weiter Datums-/Uhrzeitdaten in der Databricks-Engine zu verwenden. Weitere Informationen finden Sie im Kapitel „Databricks-Integration“ im Data Engineering 10.4.0-Integrationshandbuch.

Nullwerte im Ziel

Ab Version 10.4.0 gelten die folgenden Änderungen, wenn Sie Daten in eine komplexe Datei schreiben:

•Wenn die Zuordnungsquelle Nullwerte enthält und Sie die Option Ziel erstellen zum Erstellen einer Parquet-Zieldatei verwenden, enthält das Standardschema optionale Felder, und Sie können Nullwerte im Ziel einfügen.

Zuvor wurden alle Felder im Standardschema als ERFORDERLICH erstellt, und Sie mussten den Datentyp im Zielschema manuell von „Erforderlich“ zu „Optional“ aktualisieren, um die Spalten mit Nullwerten in das Ziel zu schreiben.

•Wenn die Zuordnungsquelle Nullwerte enthält und Sie die Option Ziel erstellen zum Erstellen einer Avro-Zieldatei verwenden, werden Nullwerte im Standardschema definiert, und Sie können Nullwerte im Ziel einfügen.

Zuvor waren die Nullwerte nicht im Standardschema definiert, und Sie mussten das Standardzielschema manuell aktualisieren, um den Datentyp „null“ zum Schema hinzuzufügen.

HINWEIS: Sie können das Schema manuell bearbeiten, wenn Sie keine Nullwerte im Ziel zulassen möchten. Sie können das Schema nicht bearbeiten, um die Nullwerte im Ziel zu verhindern, wenn Zuordnungsfluss aktiviert ist.

Diese Änderungen gelten für die folgenden Adapter:

•PowerExchange for HDFS
•PowerExchange for Amazon S3
•PowerExchange for Google Cloud Storage
•PowerExchange for Microsoft Azure Blob Storage
•PowerExchange for Microsoft Azure Data Lake Storage Gen1

Python-Umwandlung

Ab Version 10.4.0 können Sie auf Ressourcendateien im Python-Code zugreifen, indem Sie einen Index im Array resourceFilesArray referenzieren. Verwenden Sie resourceFilesArray in neuen Zuordnungen, die Sie in Version 10.4.0 erstellen.

Zuvor hatte das Array den Namen resourceJepFile. Aktualisierte Zuordnungen, die resourceJepFile verwenden, werden weiter erfolgreich ausgeführt.

Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.