What's New and Changed (10.5.7) > Teil XII: Version 10.2.1 > Änderungen in 10.2.1 > Big Data Management
  

Big Data Management

In diesem Abschnitt werden Änderungen an Big Data in Version 10.2.1 erläutert.

Azure-Speicherzugang

Ab Version 10.2.1 müssen Sie die Eigenschaften in der Clusterkonfiguration core-site.xml überschreiben, bevor Sie ein Mapping auf dem Azure HDInsight-Cluster durchführen.
WASB
Wenn Sie einen Cluster mit WASB als Speicher verwenden, können Sie den dem HDInsight-Cluster zugeordneten Speicherkontenschlüssel vom Administrator erhalten oder den verschlüsselten Speicherkontenschlüssel entschlüsseln und dann den entschlüsselten Wert in der Clusterkonfiguration core-site.xml überschreiben.
ADLS
Wenn Sie einen Cluster mit ADLS als Speicher verwenden, müssen Sie die Client-Anmeldedaten aus der Webanwendung kopieren und dann die Werte in der Clusterkonfiguration core-site.xml überschreiben.
Zuvor haben Sie die Dateien aus dem Hadoop-Cluster auf den Rechner kopiert, auf dem der Datenintegrationsdienst läuft.

Konfiguration der Hadoop-Verteilung

In diesem Abschnitt werden Änderungen an der Konfiguration der Hadoop-Distribution beschrieben.

Konfiguration der Hadoop-Distribution

Ab Version 10.2.1 konfigurieren Sie die Hadoop-Distribution in den Eigenschaften der Clusterkonfiguration.
Die Eigenschaften „Distributionsname“ und „Distributionsversion“ werden beim Import einer Clusterkonfiguration aus dem Cluster gefüllt. Sie können die Distributionsversion bearbeiten, nachdem Sie den Importvorgang abgeschlossen haben.
Bisher wurde die Hadoop-Distribution durch den Pfad zum Distributionsverzeichnis auf der Maschine identifiziert, die den Datenintegrationsdienst hostet.
Ab Version 10.2.1 wird die folgende Eigenschaft aus den Eigenschaften des Datenintegrationsdiensts entfernt:
Weitere Informationen zu den Eigenschaften „Distributionsname“ und „Distributionsversion“ finden Sie im Big Data Management 10.2.1-Administrationshandbuch.

MapR-Konfiguration

Ab Version 10.2.1 ist es nicht mehr erforderlich, Prozesseigenschaften des Datenintegrationsdiensts für die Domäne zu konfigurieren, wenn Sie Big Data Management mit MapR verwenden. Big Data Management unterstützt die Kerberos-Authentifizierung, ohne dass ein Eingreifen des Benutzers erforderlich ist.
Bisher wurden in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts JVM-Optionseigenschaften sowie Umgebungsvariablen konfiguriert, um Unterstützung für die Kerberos-Authentifizierung zu ermöglichen.
Weitere Informationen zur Integration der Domäne in einen MapR-Cluster finden Sie im Big Data Management 10.2.1-Hadoop-Integrationshandbuch.

Developer-Tool-Konfiguration

Ab Version 10.2.1 können Sie einen Metadaten-Zugriffsdienst erstellen. Der Metadaten-Zugriffsdienst ist ein Anwendungsdienst, der es dem Developer Tool ermöglicht, auf Hadoop-Verbindungsinformationen zuzugreifen, um Metadaten zu importieren und anzuzeigen. Wenn Sie ein Objekt aus einem Hadoop-Cluster importieren, verwenden die folgenden Adapter den Metadaten-Zugriffsdienst, um die Objekt-Metadaten zur Designzeit zu extrahieren:
Bisher haben Sie die folgenden Schritte manuell auf jedem Developer Tool ausgeführt, um die Kommunikation zwischen dem Developer-Tool-Computer und dem Hadoop-Cluster zur Designzeit herzustellen:
Der Metadaten-Zugriffsdienst macht es überflüssig, jeden Developer-Tool-Computer für die Konnektivität mit dem Hadoop-Cluster zu konfigurieren.
Weitere Informationen finden Sie im Kapitel "Metadaten-Zugriffsdienst" im Informatica 10.2.1 Anwendungsdienst-Handbuch.

Hadoop-Verbindung Änderungen

Ab Version 10.2.1 enthält die Hadoop-Verbindung neue und andere Eigenschaften und Funktionen. Dazu gehören mehrere Eigenschaften, die Sie zuvor in anderen Verbindungen oder Konfigurationsdateien konfiguriert haben, sowie weitere Änderungen.
Dieser Abschnitt listet Änderungen an der Hadoop-Verbindung in Version 10.2.1 auf.

Eigenschaften von hadoopEnv.properties zur Hadoop-Verbindung verschoben

Ab Version 10.2.1 sind die Eigenschaften, die Sie zuvor in der Datei hadoopEnv.properties konfiguriert haben, nun in den erweiterten Eigenschaften für die Hadoop-Verbindung konfigurierbar.
Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch. Weitere Informationen zur Konfiguration von Big Data Management finden Sie im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.1.

Eigenschaften von der Hive-Verbindung zur Hadoop-Verbindung verschoben

Die folgenden Hive-Verbindungseigenschaften für Mappings auf einem Hadoop-Cluster befinden sich nun in der Hadoop-Verbindung:
Bisher haben Sie diese Eigenschaften in der Hive-Verbindung konfiguriert.
Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Administratorhandbuch.

Erweiterte Eigenschaften für Hadoop Runtime-Engines

Ab Version 10.2.1 können Sie erweiterte Eigenschaften für die Blaze-, Spark- und Hive-Laufzeit-Engines in den Hadoop-Verbindungseigenschaften konfigurieren.
Informatica standardisierte die Eigenschaftsnamen für Laufzeit-Engine-bezogene Eigenschaften. Die folgende Tabelle zeigt die alten und neuen Namen:
Eigenschaftsname vor 10.2.1
10.2.1 Abschnitt für die Hadoop-Verbindungseigenschaften
10.2.1 Eigenschaftsname
Benutzerdefinierte Eigenschaften des Blaze-Diensts
Blaze-Konfiguration
Weitere Eigenschaften
Spark-Ausführungsparameter
Spark-Konfiguration
Weitere Eigenschaften
Hive-Custom-Eigenschaften
Hive-Pushdown-Konfiguration
Weitere Eigenschaften
Zuvor haben Sie erweiterte Eigenschaften für Laufzeit-Engines in den Dateien hadoopRes.properties oder hadoopEnv.properties oder im Feld "Benutzerdefinierte Eigenschaften der Hadoop-Engine" unter Allgemeine Eigenschaften im Administrator Tool konfiguriert.

Zusätzliche Eigenschaften für die Blaze-Engine

Ab Version 10.2.1 können Sie eine zusätzliche Eigenschaft im Abschnitt der Blaze-Konfigurationseigenschaften der Hadoop-Verbindungseigenschaften konfigurieren.
Die folgende Tabelle beschreibt die Eigenschaft:
Eigenschaft
Beschreibung
Blaze YARN-Knotenbezeichnung
Knotenbezeichnung, die den Knoten auf dem Hadoop-Cluster bestimmt, auf dem die Blaze-Engine läuft. Wenn Sie keine Knotenbezeichnung angeben, läuft die Blaze-Engine auf den Knoten in der Standardpartition.
Wenn der Hadoop-Cluster logische Operatoren für Knotenbezeichnungen unterstützt, können Sie eine Liste von Knotenbezeichnungen angeben. Um die Knotenbezeichnungen aufzulisten, verwenden Sie die Operatoren && (UND), ||| (ODER) und ! (NICHT).
Weitere Informationen über die Verwendung von Knotenbezeichnungen in der Blaze-Engine finden Sie im Kapitel "Mapping in einer Hadoop-Umgebung" im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Hive-Verbindungseigenschaften

Mit Version 10.2.1 wurden die Eigenschaften der Hive-Verbindung geändert.
Die folgenden Hive-Verbindungseigenschaften wurden entfernt:
Bisher waren diese Eigenschaften veraltet. Ab Version 10.2.1 sind sie obsolet.
Konfigurieren Sie die folgenden Hive-Verbindungseigenschaften in der Hadoop-Verbindung:
Bisher haben Sie diese Eigenschaften in der Hive-Verbindung konfiguriert.
Weitere Informationen zu Hive- und Hadoop-Verbindungen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Überwachung

In diesem Abschnitt werden Änderungen an der Überwachungsfunktion von Big Data Management in Version 10.2.1 erläutert.

Spark-Überwachung

Ab Version 10.2.1 beziehen sich die Änderungen in der Spark-Überwachung auf die folgenden Bereiche:

Ereignisänderungen

Ab Version 10.2.1 werden nur noch Überwachungsinformationen in den Spark-Ereignissen im Sitzungsprotokoll geprüft.
Zuvor wurden alle Spark-Ereignisse wie in der Spark-Anwendung an den Spark-Exekutor weitergeleitet. Wenn die übermittelten Ereignisse lange Zeit dauerten, traten Leistungsprobleme auf.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Ansicht "Übersichtsstatistik"

Ab Version 10.2.1 können Sie die Statistiken für die Spark-Ausführung basierend auf den Ausführungsstufen einsehen. Beispielsweise zeigen Spark-Ausführungsstufen die Statistik der Ausführungsstufen der Spark-Anwendung an. Stage_0 zeigt die Statistik, die sich auf die Laufphase mit ID=0 in der Spark-Anwendung bezieht. Zeilen und Durchschnittliche Zeilen/Sek. zeigen die Anzahl der aus der Stufe geschriebenen Zeilen und den entsprechenden Durchsatz an. Byte und Durchschnittliche Byte/Sek. zeigen die in der Stufe übertragenen Byte und den Durchsatz an.
Bisher konnten Sie nur die Quell- und Zielzeilen und die Durchschnittszeilen für jede Sekunde, die für die Spark-Ausführung verarbeitet wurde, anzeigen.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Gesamtstellenanzahl und Dezimalstellenanzahl bei der Hive-Engine

Ab Version 10.2.1 kann die Ausgabe benutzerdefinierter Funktionen zur Multiplikation bei der Hive-Engine maximal 6 Dezimalstellen haben, wenn die folgenden Bedingungen zutreffen:
Zuvor war auch eine Dezimalstellenanzahl von 0 möglich.
Weitere Informationen finden Sie im Kapitel zum Mapping in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1 -Benutzerhandbuch.

Sqoop

Ab Version 10.2.1 gelten folgende Änderungen für Sqoop:

Umwandlungsunterstützung auf der Hive-Engine

Ab Version 10.2.1 erfordert eine Labeler- oder Parser-Umwandlung, die eine probabilistische Analyse durchführt, das Java 8 Development Kit auf jedem Knoten, auf dem sie läuft.
Bisher war für die Umwandlungen das Java 7 Development Kit erforderlich.
Wenn Sie ein Mapping ausführen, das eine Labeler- oder Parser-Umwandlung enthält, die Sie für die probabilistische Analyse konfiguriert haben, überprüfen Sie die Java-Version auf den Hive-Knoten.
HINWEIS: Auf einem Blaze- oder Spark-Knoten verwendet der Datenintegrationsdienst das Java Development Kit, das mit der Informatica-Engine installiert wird. Informatica 10.2.1 wird mit Version 8 des Java Development Kits installiert.
Weitere Informationen finden Sie im Informatica 10.2.1 Installationshandbuch oder im Informatica 10.2.1 Upgrade-Handbuch, das für die von Ihnen aktualisierte Informatica-Version gilt.