What's New and Changed (10.5.7) > Teil XIII: Version 10.2 - 10.2 HotFix 2 > Neue Funktionen in 10.2 > Big Data
  

Big Data

In diesem Abschnitt werden neue Big Data-Funktionen in 10.2 erläutert.

Installation von Big Data Management

Ab Version 10.2 installiert der Datenintegrationsdienst automatisch die Big Data Management-Binärdateien auf dem Cluster.
Wenn Sie eine Zuordnung ausführen, sucht der Datenintegrationsdienst nach den Binärdateien auf dem Cluster. Wenn sie nicht existieren oder nicht synchronisiert sind, bereitet der Datenintegrationsdienst die Dateien für die Übertragung vor. Sie überträgt die Dateien auf den verteilten Cache über das Informatica Hadoop-Staging-Verzeichnis auf HDFS. Standardmäßig lautet das Staging-Verzeichnis /tmp. Dieser Prozess ersetzt die Anforderung zum Installieren von Distributionspaketen auf dem Hadoop-Cluster.
Weitere Informationen finden Sie im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.

Clusterkonfiguration

Eine Clusterkonfiguration ist ein Objekt in der Domäne, das Konfigurationsinformationen zum Hadoop-Cluster enthält. Die Clusterkonfiguration ermöglicht es dem Datenintegrationsdienst, Mapping-Logik an die Hadoop-Umgebung zu übertragen.
Wenn Sie die Clusterkonfiguration erstellen, importieren Sie Eigenschaften der Clusterkonfiguration, die in den Konfigurationsdateien des Standorts enthalten sind. Sie können diese Eigenschaften direkt aus einem Cluster oder aus einer Clusterkonfigurations-Archivdatei importieren. Sie können auch Verbindungen erstellen, die der Clusterkonfiguration zugeordnet werden sollen.
Zuvor haben Sie das Dienstprogramm Hadoop Configuration Manager ausgeführt, um Verbindungen und andere Informationen zu konfigurieren, damit die Informatica-Domäne mit dem Cluster kommunizieren kann.
Weitere Informationen zur Clusterkonfiguration finden Sie im Kapitel "Clusterkonfiguration" im Administratorhandbuch zu Informatica Big Data Management 10.2.

Verarbeiten von hierarchischen Daten

Ab Version 10.2 können Sie komplexe Datentypen wie array, struct und map in Zuordnungen verwenden, die auf der Spark-Engine ausgeführt werden. Mit komplexen Datentypen liest, verarbeitet und schreibt die Spark-Engine hierarchische Daten direkt in komplexe Avro-, JSON- und Parquet-Dateien.
Entwickeln Sie Zuordnungen mit komplexen Ports, Operatoren und Funktionen, um die folgenden Aufgaben auszuführen:
Wenn Sie hierarchische Daten verarbeiten, können Sie hierarchische Konvertierungsassistenten verwenden, um die Mapping-Entwicklungsaufgaben zu vereinfachen. Verwenden Sie diese Assistenten in den folgenden Szenarien:
Weitere Informationen finden Sie im Kapitel „Verarbeitung hierarchischer Daten in der Spark-Engine“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Zustandsbezogenes Computing auf der Spark-Engine

Ab Version 10.2 können Sie Fensterfunktionen in einer Ausdrucksumwandlung verwenden, um zustandsbezogene Berechnungen für die Spark-Engine durchzuführen. Fensterfunktionen wirken sich auf eine Gruppe von Zeilen aus und berechnen einen einzelnen Rückgabewert für jede Eingabezeile. Mit Fensterfunktionen können Sie die folgenden Aufgaben ausführen:
Weitere Informationen finden Sie im Kapitel „Zustandsbezogenes Computing auf der Spark-Engine“ des Handbuchs zu Big Data Management 10.2.

Datenintegrationsdienst Warteschlangen

Ab Version 10.2 stellt der Datenintegrationsdienst bei gleichzeitiger Bereitstellung mehrerer Mapping-Aufträge oder Workflow-Mapping-Tasks die Aufträge in eine permanente Warteschlange und führt die Aufträge aus, wenn Ressourcen verfügbar sind. Sie können den aktuellen Status von Mapping-Aufträgen über die Registerkarte "Überwachen" oder über das Administrator Tool anzeigen.
Alle Warteschlangen werden standardmäßig beibehalten. Wenn der Datenintegrationsdienst-Knoten unerwartet heruntergefahren wird, findet für die Warteschlange kein Failover statt, wenn der Datenintegrationsdienst ausfällt. Die Warteschlange verbleibt auf dem Computer mit dem Datenintegrationsdienst, und der Datenintegrationsdienst setzt die Verarbeitung der Warteschlange fort, wenn Sie ihn neu starten.
Standardmäßig kann jede Warteschlange 10.000 Aufträge gleichzeitig aufnehmen. Wenn die Warteschlange voll ist, lehnt der Datenintegrationsdienst Auftragsanfragen ab und kennzeichnet sie als fehlgeschlagen. Wenn der Datenintegrationsdienst die Ausführung von Aufträgen in der Warteschlange startet, können Sie zusätzliche Aufträge bereitstellen.
Weitere Informationen finden Sie im Kapitel "Warteschlangen" im Informatica Big Data Management 10.2 Administratorhandbuch.

Blaze-Job-Überwachung

Ab Version 10.2 können Sie die Host-und Portnummer so konfigurieren, dass Sie die Anwendung "Blaze Job Monitor" in den Hadoop-Verbindungseigenschaften starten. Der Standardwert ist <Hostname>:9080. Wenn Sie den Hostnamen nicht konfigurieren, verwendet die Blaze-Engine den ersten alphabetischen Knoten im Cluster.
Weitere Informationen finden Sie im Kapitel „Verbindungen“ im Handbuch zu Big Data Management 10.2.

Eigenschaften des Datenintegrationsdiensts für die Hadoop-Integration

Ab Version 10.2 hat der Datenintegrationsdienst Eigenschaften hinzugefügt, die zur Integration der Domäne in die Hadoop-Umgebung erforderlich sind.
In der folgenden Tabelle werden die neuen Eigenschaften beschrieben:
Eigenschaft
Beschreibung
Hadoop-Staging-Verzeichnis
Das HDFS-Verzeichnis, in dem die Datenintegrationsdienste Informatica Hadoop-Binardateien übermitteln und temporäre Dateien während der Verarbeitung speichern. Das Standardverzeichnis lautet /tmp.
Hadoop-Staging-Benutzer
Erforderlich, wenn der Datenintegrationsdienstbenutzer leer ist. Der HDFS-Benutzer, der Vorgänge am Hadoop-Staging-Verzeichnis ausführt. Der Benutzer benötigt Schreibberechtigungen für das Hadoop-Staging-Verzeichnis. Standardwert ist der Datenintegrationsdienst-Benutzer.
Benutzerdefinierter Hadoop-Betriebssystempfad
Der lokale Pfad zu den Informatica Hadoop-Binärdateien, die mit dem Hadoop-Betriebssystem kompatibel sind. Erforderlich, wenn sich der Hadoop-Cluster und der Datenintegrationsdienst auf verschiedenen unterstützten Betriebssystemen befinden.
Laden Sie die Informatica-Binärdateien für den Hadoop-Cluster auf den Computer herunter, der den Datenintegrationsdienst hostet, und extrahieren Sie sie. Der Datenintegrationsdienst verwendet die Binärdateien in diesem Verzeichnis, um die Domäne in den Hadoop-Cluster zu integrieren.
Der Datenintegrationsdienst kann die folgenden Betriebssysteme synchronisieren:
  • - SUSE 11 und Red Hat 6.5
Änderungen werden wirksam, nachdem Sie den Datenintegrationsdienst wiederverwendet haben.
Infolge der Änderungen bei der Cluster-Integration werden die folgenden Eigenschaften aus dem Datenintegrationsdienst entfernt:
Weitere Informationen finden Sie im Handbuch Informatica 10.2 Hadoop Integration.

Sqoop

Ab Version 10.2 können Sie, wenn Sie Sqoop-Datenobjekte verwenden, die folgenden spezialisierten Sqoop-Konnektoren verwenden, um Zuordnungen auf der Spark-Engine auszuführen:
Diese speziellen Konnektoren verwenden native Protokolle für die Verbindung zur Teradata-Datenbank.
Weitere Informationen finden Sie im Benutzerhandbuch zu Informatica Big Data Management 10.2.

AutoScaling in einem Amazon EMR-Cluster

Ab Version 10.2 bietet Big Data Management Unterstützung für Spark-Mappings, um die Vorteile von AutoScaling in einem Amazon EMR-Cluster zu nutzen.
Durch die automatische Skalierung kann der EMR-Cluster-Administrator schwellenwertbasierte Regeln für das Hinzufügen und Subtrahieren von Cluster-Aufgaben und Kernknoten einrichten. Big Data Management zertifiziert Unterstützung für Spark-Mappings, die auf einem AutoScaling-fähigen EMR-Cluster ausgeführt werden.

Umwandlungsunterstützung für die Blaze-Engine

Ab Version 10.2 gilt für die folgenden Umwandlungen zusätzliche Unterstützung für die Blaze-Engine:
Weitere Informationen finden Sie im Kapitel „Zuordnung von Objekten in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Hive-Funktionalität für die Blaze-Engine

Ab Version 10.2 können Zuordnungen, die auf der Blaze-Engine ausgeführt werden, in zusammengefasste und sortierte Ziele lesen und schreiben.
Informationen zum Konfigurieren von Zuordnungen für die Blaze-Engine finden Sie im Kapitel „Zuordnungen in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Umwandlungsunterstützung für die Spark-Engine

Ab Version 10.2 werden die folgenden Umwandlungen mit Einschränkungen für die Spark-Engine unterstützt:
Ab Version 10.2 gilt für die folgenden Umwandlungen zusätzliche Unterstützung für die Spark-Engine:
Weitere Informationen finden Sie im Kapitel „Zuordnung von Objekten in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Hive-Funktionalität für die Spark-Engine

Ab Version 10.2 wird die folgende Funktion für Zuordnungen unterstützt, die auf der Spark-Engine ausgeführt werden:
Informationen zum Konfigurieren von Zuordnungen für die Spark-Engine finden Sie im Kapitel „Zuordnungen in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.