Data Engineering Integration
In diesem Abschnitt finden Sie weitere Informationen zu den neuen Data Engineering Integration-Funktionen in Version 10.5.
Funktion EXTRACT_STRUCT
Ab Version 10.5 können Sie die Funktion EXTRACT_STRUCT in dynamischen Ausdrücken verwenden, um alle Elemente aus einem dynamischen Strukturport in eine Ausdrucksumwandlung zu extrahieren.
Die Funktion EXTRACT_STRUCT glättet dynamische Strukturports. Der Ausdruck für die Ausgabeports verwendet den Punktoperator, um Elemente in der dynamischen Struktur zu extrahieren.
Weitere Informationen finden Sie im Informatica 10.5 Referenzhandbuch für die Umwandlungssprache.
Dateimanager für die Vorverarbeitung von Cloud-Dateien
Ab Version 10.5 können Sie Dateivorverarbeitungen, wie z. B. Auflisten, Kopieren, Umbenennen, Verschieben, Entfernen und Überwachen, in Cloud-Ökosystemen wie Microsoft Azure und Amazon AWS durchführen.
Filemanager-Befehle
In der folgenden Tabelle werden die verfügbaren Befehle für das Filemanager-Dienstprogramm beschrieben:
Befehle | Beschreibung |
|---|
copy | Verwenden Sie den Befehl „copy“, um Dateien in ein Amazon AWS-Cloud-Ökosystem zu kopieren. |
copyfromlocal | Verwenden Sie den Befehl „copyfromlocal“, um Dateien aus einem lokalen System in ein Cloud-Ökosystem zu kopieren. |
list | Verwenden Sie den Befehl „list“, um Dateien in einem Cloud-Ökosystem aufzulisten. |
move | Verwenden Sie den Befehl „move“, um Dateien in einem Cloud-Ökosystem zu verschieben. |
remove | Verwenden Sie den Befehl „remove“, um Dateien aus einem Cloud-Ökosystem zu löschen. |
rename | Verwenden Sie den Befehl „rename“, um Dateien in einem Cloud-Ökosystem umzubenennen. |
watch | Verwenden Sie den Befehl „watch“, um Dateien zu überwachen, die ein Dateiverarbeitungsereignis, eine Zuordnung oder einen Arbeitsablauf in einem Cloud-Ökosystem auslösen. |
Weitere Informationen finden Sie in der Informatica 10.5-Befehlsreferenz.
Zuordnungs-Audits
Sie können ein Audit erstellen, um die Konsistenz und Genauigkeit der Daten zu überprüfen, die in einer Zuordnung verarbeitet werden.
Ein Audit besteht aus Regeln und Bedingungen. Verwenden Sie eine Regel, um einen aggregierten Wert für eine einzelne Datenspalte zu berechnen. Verwenden Sie eine Bedingung, um Vergleiche zwischen mehreren Regeln oder zwischen einer Regel und konstanten Werten durchzuführen.
Sie können Audits für die folgenden Zuordnungen konfigurieren, die in der nativen Umgebung oder auf der Spark-Engine ausgeführt werden:
- •Lesevorgänge in Amazon S3-, JDBC V2-, Microsoft Azure SQL Data Warehouse- und Snowflake-Zuordnungen.
- •Lesevorgänge für komplexe Dateien wie Avro, Parquet und JSON in HDFS-Zuordnungen.
- •Lese- und Schreibvorgänge in Hive- und Oracle-Zuordnungen.
Weitere Informationen finden Sie im Data Engineering Integration 10.5-Benutzerhandbuch.
Profil im Databricks-Cluster
Ab Version 10.5 können Sie Profile im Databricks-Cluster ausführen.
- Profilerstellung im Databricks-Cluster
- Sie können Profile im Databricks-Cluster im Informatica Developer Tool und im Informatica Analyst Tool erstellen und ausführen. Sie können Datendomänenerkennung ausführen und Scorecards im Databricks-Cluster erstellen.
Informationen zu den Profilen im Databricks-Cluster finden Sie im Informatica 10.5 Data Discovery-Handbuch.
Vertrauliche Daten – Empfehlungen und Einblicke von CLAIRE
Ab Version 10.5 erkennt die CLAIRE-KI vertrauliche Daten in Zuordnungsquellen, wenn Enterprise Data Catalog in der Domäne konfiguriert ist.
In den Empfehlungen werden Quellenspalten aufgeführt, die vertrauliche Daten basierend auf Datenqualitätsregeln enthalten. Sie können den von CLAIRE erkannten vertraulichen Daten auch benutzerdefinierte Typen hinzufügen.
Weitere Informationen zu Empfehlungen und Einblicken finden Sie im Data Engineering Integration-Benutzerhandbuch.
Warm Pool-Unterstützung für Ephemeral-Cluster in Databricks
Ab Version 10.5 können Sie Databricks-Ephemeral-Cluster mit Warm Pools konfigurieren. Bei einem Warm Pool handelt es sich um einen Pool aus VM-Instanzen, die für die Erstellung von Ephemeral-Cluster reserviert sind.
Wenn Sie die Warm Pool-Instanzen in der Databricks-Umgebung konfigurieren, warten die ausgeführten Instanzen im Standby-Modus auf die Erstellung von Ephemeral-Clustern. Sie können den Standby-Modus für die Instanzen beibehalten, wenn die Ephemeral-Cluster beendet werden.
Weitere Informationen finden Sie im Kapitel zu Clusterarbeitsabläufen im Data Engineering Integration-Benutzerhandbuch.