What's New and Changed (10.5.7) > Teil XII: Version 10.2.1 > Änderungen in 10.2.1 > Big Data Management

Big Data Management

In diesem Abschnitt werden Änderungen an Big Data in Version 10.2.1 erläutert.

Azure-Speicherzugang

Ab Version 10.2.1 müssen Sie die Eigenschaften in der Clusterkonfiguration core-site.xml überschreiben, bevor Sie ein Mapping auf dem Azure HDInsight-Cluster durchführen.

WASB: Wenn Sie einen Cluster mit WASB als Speicher verwenden, können Sie den dem HDInsight-Cluster zugeordneten Speicherkontenschlüssel vom Administrator erhalten oder den verschlüsselten Speicherkontenschlüssel entschlüsseln und dann den entschlüsselten Wert in der Clusterkonfiguration core-site.xml überschreiben.
ADLS: Wenn Sie einen Cluster mit ADLS als Speicher verwenden, müssen Sie die Client-Anmeldedaten aus der Webanwendung kopieren und dann die Werte in der Clusterkonfiguration core-site.xml überschreiben.

Zuvor haben Sie die Dateien aus dem Hadoop-Cluster auf den Rechner kopiert, auf dem der Datenintegrationsdienst läuft.

Konfiguration der Hadoop-Verteilung

In diesem Abschnitt werden Änderungen an der Konfiguration der Hadoop-Distribution beschrieben.

Konfiguration der Hadoop-Distribution

Ab Version 10.2.1 konfigurieren Sie die Hadoop-Distribution in den Eigenschaften der Clusterkonfiguration.

Die Eigenschaften „Distributionsname“ und „Distributionsversion“ werden beim Import einer Clusterkonfiguration aus dem Cluster gefüllt. Sie können die Distributionsversion bearbeiten, nachdem Sie den Importvorgang abgeschlossen haben.

Bisher wurde die Hadoop-Distribution durch den Pfad zum Distributionsverzeichnis auf der Maschine identifiziert, die den Datenintegrationsdienst hostet.

Ab Version 10.2.1 wird die folgende Eigenschaft aus den Eigenschaften des Datenintegrationsdiensts entfernt:

•Datenintegrationsdienst-Hadoop-Distributionsverzeichnis

Weitere Informationen zu den Eigenschaften „Distributionsname“ und „Distributionsversion“ finden Sie im Big Data Management 10.2.1-Administrationshandbuch.

MapR-Konfiguration

Ab Version 10.2.1 ist es nicht mehr erforderlich, Prozesseigenschaften des Datenintegrationsdiensts für die Domäne zu konfigurieren, wenn Sie Big Data Management mit MapR verwenden. Big Data Management unterstützt die Kerberos-Authentifizierung, ohne dass ein Eingreifen des Benutzers erforderlich ist.

Bisher wurden in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts JVM-Optionseigenschaften sowie Umgebungsvariablen konfiguriert, um Unterstützung für die Kerberos-Authentifizierung zu ermöglichen.

Weitere Informationen zur Integration der Domäne in einen MapR-Cluster finden Sie im Big Data Management 10.2.1-Hadoop-Integrationshandbuch.

Developer-Tool-Konfiguration

Ab Version 10.2.1 können Sie einen Metadaten-Zugriffsdienst erstellen. Der Metadaten-Zugriffsdienst ist ein Anwendungsdienst, der es dem Developer Tool ermöglicht, auf Hadoop-Verbindungsinformationen zuzugreifen, um Metadaten zu importieren und anzuzeigen. Wenn Sie ein Objekt aus einem Hadoop-Cluster importieren, verwenden die folgenden Adapter den Metadaten-Zugriffsdienst, um die Objekt-Metadaten zur Designzeit zu extrahieren:

•PowerExchange for HBase
•PowerExchange for HDFS
•PowerExchange for Hive
•PowerExchange for MapR-DB

Bisher haben Sie die folgenden Schritte manuell auf jedem Developer Tool ausgeführt, um die Kommunikation zwischen dem Developer-Tool-Computer und dem Hadoop-Cluster zur Designzeit herzustellen:

•Extrahierte Clusterkonfigurationsdateien.
•Die krb5.ini-Datei wurde zum Importieren von Metadaten aus Hive, HBase und komplexen Dateiquellen aus einem Kerberos-fähigen Hadoop-Cluster ausgeführt.

Der Metadaten-Zugriffsdienst macht es überflüssig, jeden Developer-Tool-Computer für die Konnektivität mit dem Hadoop-Cluster zu konfigurieren.

Weitere Informationen finden Sie im Kapitel "Metadaten-Zugriffsdienst" im Informatica 10.2.1 Anwendungsdienst-Handbuch.

Hadoop-Verbindung Änderungen

Ab Version 10.2.1 enthält die Hadoop-Verbindung neue und andere Eigenschaften und Funktionen. Dazu gehören mehrere Eigenschaften, die Sie zuvor in anderen Verbindungen oder Konfigurationsdateien konfiguriert haben, sowie weitere Änderungen.

Dieser Abschnitt listet Änderungen an der Hadoop-Verbindung in Version 10.2.1 auf.

Eigenschaften von hadoopEnv.properties zur Hadoop-Verbindung verschoben

Ab Version 10.2.1 sind die Eigenschaften, die Sie zuvor in der Datei hadoopEnv.properties konfiguriert haben, nun in den erweiterten Eigenschaften für die Hadoop-Verbindung konfigurierbar.

Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch. Weitere Informationen zur Konfiguration von Big Data Management finden Sie im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.1.

Eigenschaften von der Hive-Verbindung zur Hadoop-Verbindung verschoben

Die folgenden Hive-Verbindungseigenschaften für Mappings auf einem Hadoop-Cluster befinden sich nun in der Hadoop-Verbindung:

•Datenbankname. Namespace für Tabellen. Verwenden Sie den Namen default für Tabellen, bei denen kein Datenbankname angegeben wurde.
•Erweiterte Hive-/Hadoop-Eigenschaften Konfiguriert oder überschreibt Hive- oder Hadoop-Cluster-Eigenschaften in der hive-site.xml-Konfiguration auf dem Computer, auf dem der Datenintegrationsdienst ausgeführt wird. Sie können mehrere Eigenschaften angeben.
•Temporärer Tabellen-Komprimierungs-Codec Hadoop-Komprimierungsbibliothek für einen Komprimierungs-Codec-Klassennamen.
•Codec-Klassenname. Codec-Klassenname, der Datenkomprimierung ermöglicht und die Leistung in temporären Staging-Tabellen verbessert.

Bisher haben Sie diese Eigenschaften in der Hive-Verbindung konfiguriert.

Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Administratorhandbuch.

Erweiterte Eigenschaften für Hadoop Runtime-Engines

Ab Version 10.2.1 können Sie erweiterte Eigenschaften für die Blaze-, Spark- und Hive-Laufzeit-Engines in den Hadoop-Verbindungseigenschaften konfigurieren.

Informatica standardisierte die Eigenschaftsnamen für Laufzeit-Engine-bezogene Eigenschaften. Die folgende Tabelle zeigt die alten und neuen Namen:

Eigenschaftsname vor 10.2.1	10.2.1 Abschnitt für die Hadoop-Verbindungseigenschaften	10.2.1 Eigenschaftsname
Benutzerdefinierte Eigenschaften des Blaze-Diensts	Blaze-Konfiguration	Weitere Eigenschaften
Spark-Ausführungsparameter	Spark-Konfiguration	Weitere Eigenschaften
Hive-Custom-Eigenschaften	Hive-Pushdown-Konfiguration	Weitere Eigenschaften

Zuvor haben Sie erweiterte Eigenschaften für Laufzeit-Engines in den Dateien hadoopRes.properties oder hadoopEnv.properties oder im Feld "Benutzerdefinierte Eigenschaften der Hadoop-Engine" unter Allgemeine Eigenschaften im Administrator Tool konfiguriert.

Zusätzliche Eigenschaften für die Blaze-Engine

Ab Version 10.2.1 können Sie eine zusätzliche Eigenschaft im Abschnitt der Blaze-Konfigurationseigenschaften der Hadoop-Verbindungseigenschaften konfigurieren.

Die folgende Tabelle beschreibt die Eigenschaft:

Eigenschaft	Beschreibung
Blaze YARN-Knotenbezeichnung	Knotenbezeichnung, die den Knoten auf dem Hadoop-Cluster bestimmt, auf dem die Blaze-Engine läuft. Wenn Sie keine Knotenbezeichnung angeben, läuft die Blaze-Engine auf den Knoten in der Standardpartition. Wenn der Hadoop-Cluster logische Operatoren für Knotenbezeichnungen unterstützt, können Sie eine Liste von Knotenbezeichnungen angeben. Um die Knotenbezeichnungen aufzulisten, verwenden Sie die Operatoren && (UND), \|\|\| (ODER) und ! (NICHT).

Eigenschaft

Beschreibung

Blaze YARN-Knotenbezeichnung

Knotenbezeichnung, die den Knoten auf dem Hadoop-Cluster bestimmt, auf dem die Blaze-Engine läuft. Wenn Sie keine Knotenbezeichnung angeben, läuft die Blaze-Engine auf den Knoten in der Standardpartition.

Wenn der Hadoop-Cluster logische Operatoren für Knotenbezeichnungen unterstützt, können Sie eine Liste von Knotenbezeichnungen angeben. Um die Knotenbezeichnungen aufzulisten, verwenden Sie die Operatoren && (UND), ||| (ODER) und ! (NICHT).

Weitere Informationen über die Verwendung von Knotenbezeichnungen in der Blaze-Engine finden Sie im Kapitel "Mapping in einer Hadoop-Umgebung" im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Hive-Verbindungseigenschaften

Mit Version 10.2.1 wurden die Eigenschaften der Hive-Verbindung geändert.

Die folgenden Hive-Verbindungseigenschaften wurden entfernt:

•Greifen Sie auf Hive als Quelle oder Ziel zu
•Verwenden Sie Hive zum Ausführen von Mappings im Hadoop-Cluster.

Bisher waren diese Eigenschaften veraltet. Ab Version 10.2.1 sind sie obsolet.

Konfigurieren Sie die folgenden Hive-Verbindungseigenschaften in der Hadoop-Verbindung:

•Datenbankname
•Erweiterte Hive-/Hadoop-Eigenschaften
•Temporärer Tabellenkomprimierungs-Codec
•Codec-Klassenname

Bisher haben Sie diese Eigenschaften in der Hive-Verbindung konfiguriert.

Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Überwachung

In diesem Abschnitt werden Änderungen an der Überwachungsfunktion von Big Data Management in Version 10.2.1 erläutert.

Spark-Überwachung

Ab Version 10.2.1 beziehen sich die Änderungen in der Spark-Überwachung auf die folgenden Bereiche:

•Ereignisänderungen
•Aktualisierungen in der Ansicht "Übersichtsstatistik"

Ereignisänderungen

Ab Version 10.2.1 werden nur noch Überwachungsinformationen in den Spark-Ereignissen im Sitzungsprotokoll geprüft.

Zuvor wurden alle Spark-Ereignisse wie in der Spark-Anwendung an den Spark-Exekutor weitergeleitet. Wenn die übermittelten Ereignisse lange Zeit dauerten, traten Leistungsprobleme auf.

Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Ansicht "Übersichtsstatistik"

Ab Version 10.2.1 können Sie die Statistiken für die Spark-Ausführung basierend auf den Ausführungsstufen einsehen. Beispielsweise zeigen Spark-Ausführungsstufen die Statistik der Ausführungsstufen der Spark-Anwendung an. Stage_0 zeigt die Statistik, die sich auf die Laufphase mit ID=0 in der Spark-Anwendung bezieht. Zeilen und Durchschnittliche Zeilen/Sek. zeigen die Anzahl der aus der Stufe geschriebenen Zeilen und den entsprechenden Durchsatz an. Byte und Durchschnittliche Byte/Sek. zeigen die in der Stufe übertragenen Byte und den Durchsatz an.

Bisher konnten Sie nur die Quell- und Zielzeilen und die Durchschnittszeilen für jede Sekunde, die für die Spark-Ausführung verarbeitet wurde, anzeigen.

Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Gesamtstellenanzahl und Dezimalstellenanzahl bei der Hive-Engine

Ab Version 10.2.1 kann die Ausgabe benutzerdefinierter Funktionen zur Multiplikation bei der Hive-Engine maximal 6 Dezimalstellen haben, wenn die folgenden Bedingungen zutreffen:

•Die Differenz zwischen Gesamtstellenanzahl und Dezimalstellenanzahl ist größer oder gleich 32.
•Die Gesamtstellenanzahl des Ergebnisses ist größer als 38.

Zuvor war auch eine Dezimalstellenanzahl von 0 möglich.

Weitere Informationen finden Sie im Kapitel zum Mapping in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1 -Benutzerhandbuch.

Sqoop

Ab Version 10.2.1 gelten folgende Änderungen für Sqoop:

•Wenn Sie Sqoop-Mappings auf der Spark-Engine ausführen, gibt der Datenintegrationsdienst die Sqoop-Protokollereignisse im Mapping-Protokoll aus. Bisher hat der Datenintegrationsdienst die Sqoop-Log-Ereignisse im Hadoop-Clusterprotokoll ausgedruckt.

Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

•Wenn Sie eine JDBC-Treiber.jar-Datei vom Typ 4, die für die Sqoop-Konnektivität erforderlich ist, aus dem Verzeichnis externaljdbcjars hinzufügen oder löschen, werden die Änderungen nach dem Neustart des Datenintegrationsdiensts wirksam. Wenn Sie das Mapping auf der Blaze-Engine ausführen, werden Änderungen nach einem Neustart des Datenintegrationsdiensts und des Blaze-Gittermanagers wirksam.

HINWEIS: Wenn Sie das Mapping zum ersten Mal ausführen, müssen Sie den Datenintegrationsdienst und den Blaze Grid Manager nicht neu starten. Sie müssen den Datenintegrationsdienst und den Blaze-Gittermanager nur für die nachfolgenden Mapping-Ausführungen neu starten.

Bisher mussten Sie den Datenintegrationsdienst und den Blaze-Gittermanager nicht neu starten, nachdem Sie eine Sqoop.jar-Datei hinzugefügt oder gelöscht haben.

Weitere Informationen finden Sie im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.1.

Umwandlungsunterstützung auf der Hive-Engine

Ab Version 10.2.1 erfordert eine Labeler- oder Parser-Umwandlung, die eine probabilistische Analyse durchführt, das Java 8 Development Kit auf jedem Knoten, auf dem sie läuft.

Bisher war für die Umwandlungen das Java 7 Development Kit erforderlich.

Wenn Sie ein Mapping ausführen, das eine Labeler- oder Parser-Umwandlung enthält, die Sie für die probabilistische Analyse konfiguriert haben, überprüfen Sie die Java-Version auf den Hive-Knoten.

HINWEIS: Auf einem Blaze- oder Spark-Knoten verwendet der Datenintegrationsdienst das Java Development Kit, das mit der Informatica-Engine installiert wird. Informatica 10.2.1 wird mit Version 8 des Java Development Kits installiert.

Weitere Informationen finden Sie im Informatica 10.2.1 Installationshandbuch oder im Informatica 10.2.1 Upgrade-Handbuch, das für die von Ihnen aktualisierte Informatica-Version gilt.