What's New and Changed (10.5.7) > Teil X: Versionen 10.4-10.4.0.2 > Neue Funktionen in 10.4 > Data Engineering Integration
  

Data Engineering Integration

In diesem Abschnitt werden neue Data Engineering Integration-Funktionen in Version 10.4.0 erläutert.

Unterstützung neuer Datentypen

Ab Version 10.4.0 können Sie die folgenden neuen Datentypen für komplexe Dateien verwenden:
Die neuen Datentypen gelten für die folgenden Adapter:
Weitere Informationen zu Datentypen finden Sie im Kapitel „Datentypreferenz“ im Data Engineering Integration 10.4.0-Benutzerhandbuch.

AWS Databricks-Integration

Ab Version 10.4.0 können Sie die Informatica-Domäne mit Databricks on AWS integrieren.
Sie können AWS Databricks nutzen, um Zuordnungen mit den folgenden Funktionen auszuführen:
AWS Databricks unterstützt die gleichen Datentypen wie Azure Databricks.
Weitere Informationen finden Sie in den folgenden Handbüchern:

Cluster-Arbeitsabläufe für HDInsight-Zugriff auf ALDS Gen2-Ressourcen

Ab Version 10.4.0 können Sie einen Cluster-Arbeitsablauf erstellen, der auf einem Azure HDInsight-Cluster ausgeführt wird, um auf ADLS Gen2-Ressourcen zuzugreifen.
Weitere Informationen zu Cluster-Arbeitsabläufen finden Sie im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Databricks Delta Lake-Speicherzugriff

Ab Version 10.4.0 können Sie auf Databricks Delta Lake-Speicher als Quellen und Ziele zugreifen.
Zuordnungen können auf Delta Lake-Ressourcen auf den AWS- und Azure-Plattformen zugreifen.
Informationen zum Konfigurieren des Zugriffs auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Handbuch. Informationen zum Erstellen von Zuordnungen für den Zugriff auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Benutzerhandbuch.

In Zuordnungen verwendete Knoten anzeigen

Ab Version 10.4.0 können Sie die maximale Zahl der Clusterknoten anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet werden.
Mit der REST Operations Hub-API ClusterStats(startTimeInmillis=[value], endTimeInmillis=[value]) können Sie die maximale Anzahl an Hadoop-Knoten für eine Clusterkonfiguration anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet wird.
Weitere Informationen zur REST-API finden Sie im Referenzkapitel zur Überwachung der REST-API im Data Engineering 10.4.0-Administratorhandbuch.

Protokollaggregation

Ab Version 10.4.0 können Sie aggregierte Protokolle für bereitgestellte Zuordnungen erhalten, die in der Hadoop-Umgebung ausgeführt werden.
Sie können die aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID im Monitoring Tool erfassen, bzw. verwenden Sie den Befehl infacmd ms fetchAggregatedClusterLogs. Sie können eine .zip- oder tar.gz-Datei der aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID erhalten und die komprimierte aggregierte Protokolldatei in ein Zielverzeichnis schreiben.
Weitere Informationen finden Sie im Informatica 10.4.0-Administratorhandbuch.

Analysieren von hierarchischen Daten auf der Spark-Engine

Ab 10.4.0 können Sie komplexe Funktionen verwenden, um bis zu 5 MB Daten Midstream in einer Zuordnung zu analysieren.
Die Spark-Engine kann Roh-Zeichenfolgenquelldaten anhand der folgenden komplexen Funktionen analysieren:
Die komplexen Funktionen analysieren JSON- oder XML-Daten in der Quellzeichenfolge und generieren strukturierte Zieldaten.
Weitere Informationen finden Sie im Kapitel „Hierarchische Datenverarbeitung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.
Weitere Informationen zu komplexen Funktionen finden Sie im Kapitel „Funktionen“ im Developer-Referenzhandbuch für die Umwandlungssprache von Informatica 10.4.0.

Profile und Stichprobenoptionen auf der Spark-Engine

Ab Version 10.4.0 können Sie Profile ausführen und Stichprobenoptionen für die Spark-Engine wählen.
Profilerstellung auf der Spark-Engine
Sie können Profile auf der Spark-Engine im Informatica Developer Tool und im Informatica Analyst Tool erstellen und ausführen. Sie können die Datendomänenerkennung ausführen und Scorecards auf der Spark-Engine erstellen.
Stichprobenoptionen auf der Spark-Engine
Sie können die folgenden Stichprobenoptionen wählen, um Profile auf der Spark-Engine auszuführen:
Weitere Informationen zu den Profilen und Stichprobenoptionen auf der Spark-Engine finden Sie im Informatica 10.4.0 Data Discovery-Handbuch.

Python-Umwandlung

Ab Version 10.4.0 hat die Python-Umwandlung die folgende Funktion:

Aktiver Modus

Sie können eine aktive Python-Umwandlung erstellen. Als aktive Umwandlung kann die Python-Umwandlung die Anzahl der sie durchlaufenden Zeilen ändern. Beispielsweise kann die Python-Umwandlung mehrere Ausgabezeilen aus einer einzelnen Eingabezeile generieren, oder die Umwandlung kann eine einzige Ausgabezeile aus mehreren Eingabezeilen generieren.
Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Partitionierte Daten

Sie können Python-Code ausführen, um eingehende Daten basierend auf dem Standard-Partitionierungsschema der Daten zu verarbeiten, oder Sie können die Daten erneut partitionieren, bevor der Python-Code ausgeführt wird. Um die Daten erneut zu partitionieren, bevor der Python-Code ausgeführt wird, wählen Sie einen oder mehrere Eingabeports als Partitionsschlüssel aus.
Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Sqoop

Ab Version 10.4.0 können Sie die folgenden Sqoop-Argumente in der JDBC-Verbindung konfigurieren:
Weitere Informationen zum Konfigurieren dieser Sqoop-Argumente finden Sie in der Sqoop-Dokumentation.