Big Data Management

Azure Databricks ist eine Cloud-Analyseplattform, die für Microsoft Azure-Cloud-Dienste optimiert ist. Sie umfasst die Open-Source-Technologien und -funktionen des Apache Spark-Clusters.

Die Informatica-Domäne kann auf einer Azure-VM oder vor Ort installiert werden. Das Verfahren zur Integration läuft ähnlich ab wie bei der Integration in die Hadoop-Umgebung. Sie führen Integrationsaufgaben aus, beispielsweise den Import der Clusterkonfiguration aus der Databricks-Umgebung. Für den Zugriff auf die Databricks-Umgebung verwendet die Informatica-Domäne eine Token-Authentifizierung. Die Databricks-Token-ID wird in der Databricks-Verbindung gespeichert.

Quellen und Ziele

Sie können Mappings mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:

Umwandlungen

Sie können einem Databricks-Mapping die folgenden Umwandlungen hinzufügen:

Die Databricks-Spark-Engine verarbeitet die Umwandlung auf ähnliche Weise, wie die Spark-Engine Prozesse in der Hadoop-Umgebung verarbeitet.

Datentypen

Folgende Datentypen werden unterstützt:

Mappings

Beim Konfigurieren eines Mappings haben Sie die Möglichkeit, das Mapping in der Databricks-Umgebung zu validieren und auszuführen. Wenn Sie das Mapping ausführen, generiert der Datenintegrationsdienst Scala-Code und leitet ihn an die Databricks-Spark-Engine weiter.

Arbeitsabläufe

Sie können Cluster-Workflows entwickeln, um in der Databricks-Umgebung Ephemeral-Cluster zu erstellen.

Weitere Informationen finden Sie in den folgenden Handbüchern:

Datenvorschau auf der Spark-Engine

Ab Version 10.2.2 können Sie eine Vorschau der Daten in einer Zuordnung anzeigen, die auf der Spark-Engine im Developer tool ausgeführt werden. Die Anzeige der Daten in der Vorschau hilft beim Entwerfen und Debuggen von Big-Data-Zuordnungen.

Sie können Quellen und Umwandlungen als Vorschaupunkte in einem Mapping auswählen, das die folgenden hierarchischen Typen enthält:

Die Vorschauanzeige von Daten ist für die technische Vorschau verfügbar. Die technische Vorschau wird ausschließlich und ohne Gewähr zu Prüfzwecken zur Verfügung gestellt. Sie wird in Produktionsumgebungen oder Umgebungen, die in Produktion gehen sollen, nicht unterstützt. Informatica beabsichtigt, die Vorschaufunktionen in kommenden Versionen für die Produktion bereitzustellen. Ob dies aber tatsächlich geschieht, hängt von verschiedenen marktbezogenen oder technischen Faktoren ab. Weitere Informationen erhalten Sie beim globalen Kundensupport von Informatica.

Weitere Informationen finden Sie im Informatica Big Data Management 10.2.2-Benutzerhandbuch.

Hierarchische Daten

In diesem Abschnitt werden neue Funktionen für hierarchische Daten in Version 10.2.2 beschrieben.

Dynamische komplexe Ports

Ab Version 10.2.2 können Sie einem dynamischen Mapping, das auf der Spark-Engine ausgeführt wird, dynamische komplexe Ports hinzufügen. Dynamische komplexe Ports bieten Ihnen die Möglichkeit, häufige Schemaänderungen bei hierarchischen Daten in komplexen Dateien zu verwalten.

Ein dynamischer komplexer Port empfängt neue oder veränderte Elemente eines komplexen Ports basierend auf den Schemaänderungen zur Laufzeit. Die Eingaberegeln bestimmen die Elemente eines dynamischen komplexen Ports. Basierend auf den Eingaberegeln empfängt ein dynamischer komplexer Port eines oder mehrere Elemente eines komplexen Ports aus der vorgelagerten Umwandlung. Bei einigen Umwandlungen auf der Spark-Engine können Sie dynamische komplexe Ports wie dynamisches Array, dynamisches Mapping und dynamische Struktur verwenden.

Weitere Informationen finden Sie im Kapitel zur Verarbeitung hierarchischer Daten mit Schemaänderungen im Informatica Big Data Management 10.2.2-Benutzerhandbuch.

Hohe Verfügbarkeit

In diesem Abschnitt werden neue Hochverfügbarkeitsfunktionen in Version 10.2.2 beschrieben.

Big Data Jobwiederherstellung

Ab Version 10.2.2 kann der Datenintegrationsdienst einen Big-Data-Job, der für die Ausführung auf der Spark-Engine konfiguriert wurde, bei einem unerwarteten Stopp des Datenintegrationsdienst-Knotens wiederherstellen. Wenn ein Datenintegrationsdienst-Knoten vor Abschluss eines Jobs ausfällt, sendet der Datenintegrationsdienst den Job an einen anderen Knoten. Die Verarbeitung der Job-Aufgaben wird dann von der Stelle des Knotenausfalls an fortgesetzt.

Zum Wiederherstellen von Big-Data-Mappings müssen Sie in den Eigenschaften des Datenintegrationsdiensts die Big-Data-Jobwiederherstellung aktivieren und den Job über infacmd ausführen.

Weitere Informationen finden Sie im Kapitel zur Datenintegrationsdienstverarbeitung im Informatica Big Data Management 10.2.2-Administratorhandbuch.

Verteilte Warteschlangen beim Datenintegrationsdienst

Ab Version 10.2.2 verwendet der Datenintegrationsdienst eine verteilte Warteschlange zum Speichern von Jobinformationen, wenn für bereitgestellte Big-Data-Jobs die Wiederherstellung großer Datenmengen aktiviert ist. Die verteilte Warteschlange wird im Modellrepository gespeichert, und ein verfügbarer Datenintegrationsdienst kann Jobs aus der Warteschlange ausführen, sobald Ressourcen verfügbar sind.

Weitere Informationen finden Sie im Kapitel zur Datenintegrationsdienstverarbeitung im Informatica Big Data Management 10.2.2-Administratorhandbuch.

Intelligentes Strukturmodell

In diesem Abschnitt werden neue Funktionen rund um intelligente Strukturmodelle in Version 10.2.2 beschrieben.

Aliasse in XML-Dateien

Ab Version 10.2.2 kann die intelligente Strukturerkennung XML-Dateien verarbeiten, die verschiedene Aliasse zum Identifizieren desselben Namespace verwenden, wie es bei XML-Dateien der Fall ist, die mit einem intelligenten Strukturmodell erstellt wurden.

Datentypen

Ab Version 10.2.2 und beginnend mit der März-Version (Winter 2019) von Informatica Intelligent Cloud Services werden bei Verwendung eines intelligenten Strukturmodells durch einen komplexen Datei-Reader die Datentypen von der intelligenten Strukturerkennung an die Ausgabedatenports weitergegeben.

Erkennt die intelligente Strukturerkennung beispielsweise, dass ein Feld ein Datum enthält, gibt die intelligente Strukturerkennung die Daten als Datum und nicht als Zeichenfolge an die Ausgabedatenports weiter.

Feldnamen

Ab Version 10.2.2 und von der März-Version (Winter 2019) von Informatica Intelligent Cloud Services an können Feldnamen in komplexen Dateidatenobjekten, die Sie aus einem intelligenten Strukturmodell importieren, mit Zahlen und reservierten Wörtern beginnen; zudem dürfen sie folgende Sonderzeichen enthalten: \. [ ] { } ( ) * + - ? . ^ $ |

Wenn ein Feld mit einer Zahl oder einem reservierten Wort beginnt, wird per Mapping von Big Data Management ein Unterstrich (_) vor dem Feldnamen eingefügt. Beginnt ein Feld in einem intelligenten Strukturmodell beispielsweise mit OR, importiert das Mapping das Feld als _OR. Wenn der Feldname ein Sonderzeichen enthält, konvertiert das Mapping dieses Zeichen in einen Unterstrich.

Verarbeitung großer XML-Dateien

Ab Version 10.2.2 kann die intelligente Strukturerkennung XML-Dateien streamen und Daten für sich wiederholende Elemente in Blöcken verarbeiten. Dadurch wird die Verarbeitung großer XML-Dateien effizienter.

Datendrift

Ab Version 10.2.2 und beginnend mit der März-Version (Winter 2019) von Informatica Intelligent Cloud Services bietet die intelligente Strukturerkennung einen verbesserten Umgang mit Datendrifts.

Bei der intelligenten Strukturerkennung kommen Datendrifts vor, wenn die Eingabedaten Felder enthalten, die in der Beispieldatei nicht vorhanden waren. Die intelligente Strukturerkennung leitet die undefinierten Daten in einem solchen Fall an einen nicht zugewiesenen Datenport beim Ziel weiter, statt die Daten zu verwerfen.

Massenerfassung

Ab Version 10.2.2 können Sie ein inkrementelles Laden ausführen, um inkrementelle Daten zu erfassen. Beim Ausführen des inkrementellen Ladens ruft die Spark-Engine inkrementelle Daten basierend auf einem Zeitstempel oder einer ID-Spalte ab und lädt die inkrementellen Daten dann in das Hive- oder HDFS-Ziel. Wenn Sie die Daten in einem Hive-Ziel erfassen, kann die Spark-Engine auch die bei den Quelltabellen vorgenommenen Schemaänderungen verteilen.

Wenn Sie inkrementelle Daten erfassen, nutzt der Massenerfassungsdienst den inkrementellen Importmodus von Sqoop.

Weitere Informationen finden Sie im Massenerfassungshandbuch zu Informatica Big Data Management 10.2.2.

Überwachung

In diesem Abschnitt werden die neuen Funktionen für die Überwachung von Big Data Management in Version 10.2.2 erläutert.

Spark-Überwachung

Ab Version 10.2.2 können Sie Aufgaben vor und nach dem Job im Bereich „Übersichtsstatistik“ für die Spark-Überwachung anzeigen.

Weitere Informationen zu Aufgaben vor und nach dem Job finden Sie im Informatica Big Data Management 10.2.2-Benutzerhandbuch.

Sicherheit

In diesem Abschnitt werden die neuen Funktionen für die Sicherheit von Big Data Management in Version 10.2.2 erläutert.

Enterprise-Sicherheitspaket

Ab Version 10.2.2 unterstützt Informatica einen Azure HDInsight-Cluster mit Enterprise-Sicherheitspaket (Enterprise Security Package).

Das Enterprise-Sicherheitspaket verwendet Kerberos zur Authentifizierung und Apache Ranger zur Autorisierung.

Weitere Informationen zum Enterprise-Sicherheitspaket finden Sie im Informatica Big Data Management 10.2.2-Administratorhandbuch.

Ziele

In diesem Abschnitt werden neue Funktionen für Ziele in Version 10.2.2 beschrieben.

HDFS-Einfachdateiziele

Ab Version 10.2.2 können Sie Ausgabedaten an HDFS-Ziedateien und -Ablehnungsdateien anhängen. Zum Anhängen von Ausgabedaten wählen Sie die anzuhängenden Daten, wenn das HDFS-Ziel vorhanden ist.

Für eine einfachere Verwaltung der Dateien, die angehängte Daten enthalten, hängt der Datenintegrationsdienst die Ausführungskennung des Mappings an die Namen der Zieldateien und Ablehnungsdateien an.

Weitere Informationen finden Sie im Kapitel „Ziele“ im Informatica Big Data Management 10.2.2-Benutzerhandbuch.

Big Data Management

Integration in Azure Databricks

Quellen und Ziele

Umwandlungen

Datentypen

Mappings

Arbeitsabläufe

Datenvorschau auf der Spark-Engine

Hierarchische Daten

Dynamische komplexe Ports

Hohe Verfügbarkeit

Big Data Jobwiederherstellung

Verteilte Warteschlangen beim Datenintegrationsdienst

Intelligentes Strukturmodell

Aliasse in XML-Dateien

Datentypen

Feldnamen

Verarbeitung großer XML-Dateien

Datendrift

Massenerfassung

Überwachung

Spark-Überwachung

Sicherheit

Enterprise-Sicherheitspaket

Ziele

HDFS-Einfachdateiziele