Big Data

Wenn Sie eine Zuordnung ausführen, sucht der Datenintegrationsdienst nach den Binärdateien auf dem Cluster. Wenn sie nicht existieren oder nicht synchronisiert sind, bereitet der Datenintegrationsdienst die Dateien für die Übertragung vor. Sie überträgt die Dateien auf den verteilten Cache über das Informatica Hadoop-Staging-Verzeichnis auf HDFS. Standardmäßig lautet das Staging-Verzeichnis /tmp. Dieser Prozess ersetzt die Anforderung zum Installieren von Distributionspaketen auf dem Hadoop-Cluster.

Weitere Informationen finden Sie im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.

Wenn Sie die Clusterkonfiguration erstellen, importieren Sie Eigenschaften der Clusterkonfiguration, die in den Konfigurationsdateien des Standorts enthalten sind. Sie können diese Eigenschaften direkt aus einem Cluster oder aus einer Clusterkonfigurations-Archivdatei importieren. Sie können auch Verbindungen erstellen, die der Clusterkonfiguration zugeordnet werden sollen.

Zuvor haben Sie das Dienstprogramm Hadoop Configuration Manager ausgeführt, um Verbindungen und andere Informationen zu konfigurieren, damit die Informatica-Domäne mit dem Cluster kommunizieren kann.

Weitere Informationen zur Clusterkonfiguration finden Sie im Kapitel "Clusterkonfiguration" im Administratorhandbuch zu Informatica Big Data Management 10.2.

Entwickeln Sie Zuordnungen mit komplexen Ports, Operatoren und Funktionen, um die folgenden Aufgaben auszuführen:

Wenn Sie hierarchische Daten verarbeiten, können Sie hierarchische Konvertierungsassistenten verwenden, um die Mapping-Entwicklungsaufgaben zu vereinfachen. Verwenden Sie diese Assistenten in den folgenden Szenarien:

Weitere Informationen finden Sie im Kapitel „Verarbeitung hierarchischer Daten in der Spark-Engine“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Weitere Informationen finden Sie im Kapitel „Zustandsbezogenes Computing auf der Spark-Engine“ des Handbuchs zu Big Data Management 10.2.

Ab Version 10.2 stellt der Datenintegrationsdienst bei gleichzeitiger Bereitstellung mehrerer Mapping-Aufträge oder Workflow-Mapping-Tasks die Aufträge in eine permanente Warteschlange und führt die Aufträge aus, wenn Ressourcen verfügbar sind. Sie können den aktuellen Status von Mapping-Aufträgen über die Registerkarte "Überwachen" oder über das Administrator Tool anzeigen.

Alle Warteschlangen werden standardmäßig beibehalten. Wenn der Datenintegrationsdienst-Knoten unerwartet heruntergefahren wird, findet für die Warteschlange kein Failover statt, wenn der Datenintegrationsdienst ausfällt. Die Warteschlange verbleibt auf dem Computer mit dem Datenintegrationsdienst, und der Datenintegrationsdienst setzt die Verarbeitung der Warteschlange fort, wenn Sie ihn neu starten.

Standardmäßig kann jede Warteschlange 10.000 Aufträge gleichzeitig aufnehmen. Wenn die Warteschlange voll ist, lehnt der Datenintegrationsdienst Auftragsanfragen ab und kennzeichnet sie als fehlgeschlagen. Wenn der Datenintegrationsdienst die Ausführung von Aufträgen in der Warteschlange startet, können Sie zusätzliche Aufträge bereitstellen.

Weitere Informationen finden Sie im Kapitel "Warteschlangen" im Informatica Big Data Management 10.2 Administratorhandbuch.

Ab Version 10.2 können Sie die Host-und Portnummer so konfigurieren, dass Sie die Anwendung "Blaze Job Monitor" in den Hadoop-Verbindungseigenschaften starten. Der Standardwert ist <Hostname>:9080. Wenn Sie den Hostnamen nicht konfigurieren, verwendet die Blaze-Engine den ersten alphabetischen Knoten im Cluster.

Weitere Informationen finden Sie im Kapitel „Verbindungen“ im Handbuch zu Big Data Management 10.2.

In der folgenden Tabelle werden die neuen Eigenschaften beschrieben:

Infolge der Änderungen bei der Cluster-Integration werden die folgenden Eigenschaften aus dem Datenintegrationsdienst entfernt:

Eigenschaft	Beschreibung
Hadoop-Staging-Verzeichnis	Das HDFS-Verzeichnis, in dem die Datenintegrationsdienste Informatica Hadoop-Binardateien übermitteln und temporäre Dateien während der Verarbeitung speichern. Das Standardverzeichnis lautet /tmp.
Hadoop-Staging-Benutzer	Erforderlich, wenn der Datenintegrationsdienstbenutzer leer ist. Der HDFS-Benutzer, der Vorgänge am Hadoop-Staging-Verzeichnis ausführt. Der Benutzer benötigt Schreibberechtigungen für das Hadoop-Staging-Verzeichnis. Standardwert ist der Datenintegrationsdienst-Benutzer.
Benutzerdefinierter Hadoop-Betriebssystempfad	Der lokale Pfad zu den Informatica Hadoop-Binärdateien, die mit dem Hadoop-Betriebssystem kompatibel sind. Erforderlich, wenn sich der Hadoop-Cluster und der Datenintegrationsdienst auf verschiedenen unterstützten Betriebssystemen befinden. Laden Sie die Informatica-Binärdateien für den Hadoop-Cluster auf den Computer herunter, der den Datenintegrationsdienst hostet, und extrahieren Sie sie. Der Datenintegrationsdienst verwendet die Binärdateien in diesem Verzeichnis, um die Domäne in den Hadoop-Cluster zu integrieren. Der Datenintegrationsdienst kann die folgenden Betriebssysteme synchronisieren: - SUSE 11 und Red Hat 6.5 Änderungen werden wirksam, nachdem Sie den Datenintegrationsdienst wiederverwendet haben.

Weitere Informationen finden Sie im Handbuch Informatica 10.2 Hadoop Integration.

Ab Version 10.2 können Sie, wenn Sie Sqoop-Datenobjekte verwenden, die folgenden spezialisierten Sqoop-Konnektoren verwenden, um Zuordnungen auf der Spark-Engine auszuführen:

Diese speziellen Konnektoren verwenden native Protokolle für die Verbindung zur Teradata-Datenbank.

Weitere Informationen finden Sie im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Durch die automatische Skalierung kann der EMR-Cluster-Administrator schwellenwertbasierte Regeln für das Hinzufügen und Subtrahieren von Cluster-Aufgaben und Kernknoten einrichten. Big Data Management zertifiziert Unterstützung für Spark-Mappings, die auf einem AutoScaling-fähigen EMR-Cluster ausgeführt werden.

Weitere Informationen finden Sie im Kapitel „Zuordnung von Objekten in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Informationen zum Konfigurieren von Zuordnungen für die Blaze-Engine finden Sie im Kapitel „Zuordnungen in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Ab Version 10.2 gilt für die folgenden Umwandlungen zusätzliche Unterstützung für die Spark-Engine:

Weitere Informationen finden Sie im Kapitel „Zuordnung von Objekten in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Informationen zum Konfigurieren von Zuordnungen für die Spark-Engine finden Sie im Kapitel „Zuordnungen in einer Hadoop-Umgebung“ im Benutzerhandbuch zu Informatica Big Data Management 10.2.

Big Data

Installation von Big Data Management

Clusterkonfiguration

Verarbeiten von hierarchischen Daten

Zustandsbezogenes Computing auf der Spark-Engine

Datenintegrationsdienst Warteschlangen

Blaze-Job-Überwachung

Eigenschaften des Datenintegrationsdiensts für die Hadoop-Integration

Sqoop

AutoScaling in einem Amazon EMR-Cluster

Umwandlungsunterstützung für die Blaze-Engine

Hive-Funktionalität für die Blaze-Engine

Umwandlungsunterstützung für die Spark-Engine

Hive-Funktionalität für die Spark-Engine