What's New and Changed (10.5.7) > Teil X: Versionen 10.4-10.4.0.2 > Neue Funktionen in 10.4 > Data Engineering Integration

Data Engineering Integration

In diesem Abschnitt werden neue Data Engineering Integration-Funktionen in Version 10.4.0 erläutert.

Unterstützung neuer Datentypen

Ab Version 10.4.0 können Sie die folgenden neuen Datentypen für komplexe Dateien verwenden:

• Wenn Sie eine Zuordnung verwenden, die komplexe Avro- und Parquet-Dateiobjekte in der nativen Umgebung oder in der Hadoop-Umgebung liest oder schreibt, können Sie die folgenden Datentypen verwenden:

- Datum
- Dezimal
- Zeitstempel

•Sie können den Uhrzeit-Datentyp verwenden, um komplexe Avro- oder Parquet-Dateiobjekte in der nativen Umgebung oder auf der Blaze-Engine zu lesen und zu schreiben.
•Sie können anwendbare Datum-, Uhrzeit-, Zeitstempel- und Dezimal-Datentypen verwenden, wenn Sie eine Zuordnung auf der Databricks-Spark-Engine ausführen.

Die neuen Datentypen gelten für die folgenden Adapter:

•PowerExchange for HDFS
•PowerExchange for Amazon S3
•PowerExchange for Google Cloud Storage
•PowerExchange for Microsoft Azure Blob Storage
•PowerExchange for Microsoft Azure Data Lake Storage Gen1
•PowerExchange for Microsoft Azure Data Lake Storage Gen2

Weitere Informationen zu Datentypen finden Sie im Kapitel „Datentypreferenz“ im Data Engineering Integration 10.4.0-Benutzerhandbuch.

AWS Databricks-Integration

Ab Version 10.4.0 können Sie die Informatica-Domäne mit Databricks on AWS integrieren.

Sie können AWS Databricks nutzen, um Zuordnungen mit den folgenden Funktionen auszuführen:

•Sie können Zuordnungen mit Amazon Simple Storage Service (S3)- und Amazon Redshift-Quellen und ‑Zielen innerhalb der Databricks-Umgebung ausführen.
•Sie können Cluster-Arbeitsabläufe entwickeln, um anhand von Databricks on AWS Ephemeral-Cluster zu erstellen.
•Sie können die Python-Umwandlung zu einer Zuordnung hinzufügen, die für die Ausführung auf der Databricks-Spark-Engine konfiguriert ist.

Die Python-Umwandlung wird für die technische Vorschau unterstützt.

AWS Databricks unterstützt die gleichen Datentypen wie Azure Databricks.

Weitere Informationen finden Sie in den folgenden Handbüchern:

•Data Engineering 10.4.0-Integrationshandbuch
•Data Engineering 10.4.0-Administratorhandbuch
•Data Engineering Integration 10.4.0-Benutzerhandbuch
•Informatica 10.4.0 Developer-Arbeitsablaufhandbuch

Cluster-Arbeitsabläufe für HDInsight-Zugriff auf ALDS Gen2-Ressourcen

Ab Version 10.4.0 können Sie einen Cluster-Arbeitsablauf erstellen, der auf einem Azure HDInsight-Cluster ausgeführt wird, um auf ADLS Gen2-Ressourcen zuzugreifen.

Weitere Informationen zu Cluster-Arbeitsabläufen finden Sie im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Databricks Delta Lake-Speicherzugriff

Ab Version 10.4.0 können Sie auf Databricks Delta Lake-Speicher als Quellen und Ziele zugreifen.

Zuordnungen können auf Delta Lake-Ressourcen auf den AWS- und Azure-Plattformen zugreifen.

Informationen zum Konfigurieren des Zugriffs auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Handbuch. Informationen zum Erstellen von Zuordnungen für den Zugriff auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Benutzerhandbuch.

In Zuordnungen verwendete Knoten anzeigen

Ab Version 10.4.0 können Sie die maximale Zahl der Clusterknoten anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet werden.

Mit der REST Operations Hub-API ClusterStats(startTimeInmillis=[value], endTimeInmillis=[value]) können Sie die maximale Anzahl an Hadoop-Knoten für eine Clusterkonfiguration anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet wird.

Weitere Informationen zur REST-API finden Sie im Referenzkapitel zur Überwachung der REST-API im Data Engineering 10.4.0-Administratorhandbuch.

Protokollaggregation

Ab Version 10.4.0 können Sie aggregierte Protokolle für bereitgestellte Zuordnungen erhalten, die in der Hadoop-Umgebung ausgeführt werden.

Sie können die aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID im Monitoring Tool erfassen, bzw. verwenden Sie den Befehl infacmd ms fetchAggregatedClusterLogs. Sie können eine .zip- oder tar.gz-Datei der aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID erhalten und die komprimierte aggregierte Protokolldatei in ein Zielverzeichnis schreiben.

Weitere Informationen finden Sie im Informatica 10.4.0-Administratorhandbuch.

Analysieren von hierarchischen Daten auf der Spark-Engine

Ab 10.4.0 können Sie komplexe Funktionen verwenden, um bis zu 5 MB Daten Midstream in einer Zuordnung zu analysieren.

Die Spark-Engine kann Roh-Zeichenfolgenquelldaten anhand der folgenden komplexen Funktionen analysieren:

•PARSE_JSON
•PARSE_XML

Die komplexen Funktionen analysieren JSON- oder XML-Daten in der Quellzeichenfolge und generieren strukturierte Zieldaten.

Weitere Informationen finden Sie im Kapitel „Hierarchische Datenverarbeitung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Weitere Informationen zu komplexen Funktionen finden Sie im Kapitel „Funktionen“ im Developer-Referenzhandbuch für die Umwandlungssprache von Informatica 10.4.0.

Profile und Stichprobenoptionen auf der Spark-Engine

Ab Version 10.4.0 können Sie Profile ausführen und Stichprobenoptionen für die Spark-Engine wählen.

Profilerstellung auf der Spark-Engine: Sie können Profile auf der Spark-Engine im Informatica Developer Tool und im Informatica Analyst Tool erstellen und ausführen. Sie können die Datendomänenerkennung ausführen und Scorecards auf der Spark-Engine erstellen.
Stichprobenoptionen auf der Spark-Engine: Sie können die folgenden Stichprobenoptionen wählen, um Profile auf der Spark-Engine auszuführen:

Weitere Informationen zu den Profilen und Stichprobenoptionen auf der Spark-Engine finden Sie im Informatica 10.4.0 Data Discovery-Handbuch.

Python-Umwandlung

Ab Version 10.4.0 hat die Python-Umwandlung die folgende Funktion:

Aktiver Modus

Sie können eine aktive Python-Umwandlung erstellen. Als aktive Umwandlung kann die Python-Umwandlung die Anzahl der sie durchlaufenden Zeilen ändern. Beispielsweise kann die Python-Umwandlung mehrere Ausgabezeilen aus einer einzelnen Eingabezeile generieren, oder die Umwandlung kann eine einzige Ausgabezeile aus mehreren Eingabezeilen generieren.

Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Partitionierte Daten

Sie können Python-Code ausführen, um eingehende Daten basierend auf dem Standard-Partitionierungsschema der Daten zu verarbeiten, oder Sie können die Daten erneut partitionieren, bevor der Python-Code ausgeführt wird. Um die Daten erneut zu partitionieren, bevor der Python-Code ausgeführt wird, wählen Sie einen oder mehrere Eingabeports als Partitionsschlüssel aus.

Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.

Sqoop

Ab Version 10.4.0 können Sie die folgenden Sqoop-Argumente in der JDBC-Verbindung konfigurieren:

•--update-key
•--update-mode
•--validate
•--validation-failurehandler
•--validation-threshold
•--validator
•--mapreduce-job-name
•--bindir
•--class-name
•--jar-file
•--outdir
•--package-name

Weitere Informationen zum Konfigurieren dieser Sqoop-Argumente finden Sie in der Sqoop-Dokumentation.