Data Engineering Integration
In diesem Abschnitt werden neue Data Engineering Integration-Funktionen in Version 10.4.0 erläutert.
Unterstützung neuer Datentypen
Ab Version 10.4.0 können Sie die folgenden neuen Datentypen für komplexe Dateien verwenden:
- • Wenn Sie eine Zuordnung verwenden, die komplexe Avro- und Parquet-Dateiobjekte in der nativen Umgebung oder in der Hadoop-Umgebung liest oder schreibt, können Sie die folgenden Datentypen verwenden:
- - Datum
- - Dezimal
- - Zeitstempel
- •Sie können den Uhrzeit-Datentyp verwenden, um komplexe Avro- oder Parquet-Dateiobjekte in der nativen Umgebung oder auf der Blaze-Engine zu lesen und zu schreiben.
- •Sie können anwendbare Datum-, Uhrzeit-, Zeitstempel- und Dezimal-Datentypen verwenden, wenn Sie eine Zuordnung auf der Databricks-Spark-Engine ausführen.
Die neuen Datentypen gelten für die folgenden Adapter:
- •PowerExchange for HDFS
- •PowerExchange for Amazon S3
- •PowerExchange for Google Cloud Storage
- •PowerExchange for Microsoft Azure Blob Storage
- •PowerExchange for Microsoft Azure Data Lake Storage Gen1
- •PowerExchange for Microsoft Azure Data Lake Storage Gen2
Weitere Informationen zu Datentypen finden Sie im Kapitel „Datentypreferenz“ im Data Engineering Integration 10.4.0-Benutzerhandbuch.
AWS Databricks-Integration
Ab Version 10.4.0 können Sie die Informatica-Domäne mit Databricks on AWS integrieren.
Sie können AWS Databricks nutzen, um Zuordnungen mit den folgenden Funktionen auszuführen:
AWS Databricks unterstützt die gleichen Datentypen wie Azure Databricks.
Weitere Informationen finden Sie in den folgenden Handbüchern:
- •Data Engineering 10.4.0-Integrationshandbuch
- •Data Engineering 10.4.0-Administratorhandbuch
- •Data Engineering Integration 10.4.0-Benutzerhandbuch
- •Informatica 10.4.0 Developer-Arbeitsablaufhandbuch
Cluster-Arbeitsabläufe für HDInsight-Zugriff auf ALDS Gen2-Ressourcen
Ab Version 10.4.0 können Sie einen Cluster-Arbeitsablauf erstellen, der auf einem Azure HDInsight-Cluster ausgeführt wird, um auf ADLS Gen2-Ressourcen zuzugreifen.
Weitere Informationen zu Cluster-Arbeitsabläufen finden Sie im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.
Databricks Delta Lake-Speicherzugriff
Ab Version 10.4.0 können Sie auf Databricks Delta Lake-Speicher als Quellen und Ziele zugreifen.
Zuordnungen können auf Delta Lake-Ressourcen auf den AWS- und Azure-Plattformen zugreifen.
Informationen zum Konfigurieren des Zugriffs auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Handbuch. Informationen zum Erstellen von Zuordnungen für den Zugriff auf Delta Lake-Tabellen finden Sie unter Data Engineering Integration-Benutzerhandbuch.
In Zuordnungen verwendete Knoten anzeigen
Ab Version 10.4.0 können Sie die maximale Zahl der Clusterknoten anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet werden.
Mit der REST Operations Hub-API ClusterStats(startTimeInmillis=[value], endTimeInmillis=[value]) können Sie die maximale Anzahl an Hadoop-Knoten für eine Clusterkonfiguration anzeigen, die von einer Zuordnung während einer bestimmten Zeitdauer verwendet wird.
Weitere Informationen zur REST-API finden Sie im Referenzkapitel zur Überwachung der REST-API im Data Engineering 10.4.0-Administratorhandbuch.
Protokollaggregation
Ab Version 10.4.0 können Sie aggregierte Protokolle für bereitgestellte Zuordnungen erhalten, die in der Hadoop-Umgebung ausgeführt werden.
Sie können die aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID im Monitoring Tool erfassen, bzw. verwenden Sie den Befehl infacmd ms fetchAggregatedClusterLogs. Sie können eine .zip- oder tar.gz-Datei der aggregierten Clusterprotokolle für eine Zuordnung basierend auf der Job-ID erhalten und die komprimierte aggregierte Protokolldatei in ein Zielverzeichnis schreiben.
Weitere Informationen finden Sie im Informatica 10.4.0-Administratorhandbuch.
Analysieren von hierarchischen Daten auf der Spark-Engine
Ab 10.4.0 können Sie komplexe Funktionen verwenden, um bis zu 5 MB Daten Midstream in einer Zuordnung zu analysieren.
Die Spark-Engine kann Roh-Zeichenfolgenquelldaten anhand der folgenden komplexen Funktionen analysieren:
Die komplexen Funktionen analysieren JSON- oder XML-Daten in der Quellzeichenfolge und generieren strukturierte Zieldaten.
Weitere Informationen finden Sie im Kapitel „Hierarchische Datenverarbeitung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.
Weitere Informationen zu komplexen Funktionen finden Sie im Kapitel „Funktionen“ im Developer-Referenzhandbuch für die Umwandlungssprache von Informatica 10.4.0.
Profile und Stichprobenoptionen auf der Spark-Engine
Ab Version 10.4.0 können Sie Profile ausführen und Stichprobenoptionen für die Spark-Engine wählen.
- Profilerstellung auf der Spark-Engine
- Sie können Profile auf der Spark-Engine im Informatica Developer Tool und im Informatica Analyst Tool erstellen und ausführen. Sie können die Datendomänenerkennung ausführen und Scorecards auf der Spark-Engine erstellen.
- Stichprobenoptionen auf der Spark-Engine
- Sie können die folgenden Stichprobenoptionen wählen, um Profile auf der Spark-Engine auszuführen:
Weitere Informationen zu den Profilen und Stichprobenoptionen auf der Spark-Engine finden Sie im Informatica 10.4.0 Data Discovery-Handbuch.
Python-Umwandlung
Ab Version 10.4.0 hat die Python-Umwandlung die folgende Funktion:
Aktiver Modus
Sie können eine aktive Python-Umwandlung erstellen. Als aktive Umwandlung kann die Python-Umwandlung die Anzahl der sie durchlaufenden Zeilen ändern. Beispielsweise kann die Python-Umwandlung mehrere Ausgabezeilen aus einer einzelnen Eingabezeile generieren, oder die Umwandlung kann eine einzige Ausgabezeile aus mehreren Eingabezeilen generieren.
Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.
Partitionierte Daten
Sie können Python-Code ausführen, um eingehende Daten basierend auf dem Standard-Partitionierungsschema der Daten zu verarbeiten, oder Sie können die Daten erneut partitionieren, bevor der Python-Code ausgeführt wird. Um die Daten erneut zu partitionieren, bevor der Python-Code ausgeführt wird, wählen Sie einen oder mehrere Eingabeports als Partitionsschlüssel aus.
Weitere Informationen finden Sie im Kapitel „Python-Umwandlung“ im Informatica Data Engineering Integration 10.4.0-Benutzerhandbuch.
Sqoop
Ab Version 10.4.0 können Sie die folgenden Sqoop-Argumente in der JDBC-Verbindung konfigurieren:
- •--update-key
- •--update-mode
- •--validate
- •--validation-failurehandler
- •--validation-threshold
- •--validator
- •--mapreduce-job-name
- •--bindir
- •--class-name
- •--jar-file
- •--outdir
- •--package-name
Weitere Informationen zum Konfigurieren dieser Sqoop-Argumente finden Sie in der Sqoop-Dokumentation.