What's New and Changed (10.5.7) > Teil XIII: Version 10.2 - 10.2 HotFix 2 > Änderungen in 10.2 > Big Data

Big Data

In diesem Abschnitt werden Änderungen an Big Data in 10.2 erläutert.

Hadoop-Verbindung

Ab Version 10.2 wirken sich die folgenden Änderungen auf die Hadoop-Verbindungseigenschaften aus.

Sie können die folgenden Eigenschaften verwenden, um Ihre Hadoop-Verbindung zu konfigurieren:

Eigenschaft	Beschreibung
Clusterkonfiguration	Der Name der mit der Hadoop-Umgebung verknüpften Clusterkonfiguration. Wird in „Allgemeine Eigenschaften“ angezeigt.
Ablehnungsdateien in Hadoop schreiben	Wählen Sie die Eigenschaft aus, um die Ablehnungsdateien an den HDFS-Speicherort zu verschieben, der in der Eigenschaft „Verzeichnis der Ablehnungsdatei“ aufgelistet wird, wenn Sie Zuordnungen ausführen. Wird in „Ablehnungsverzeichnis-Eigenschaften“ angezeigt.
Ablehnungsdateiverzeichnis	Das Verzeichnis für Hadoop-Mapping-Dateien auf HDFS, wenn Sie Zuordnungen ausführen. Wird in „Ablehnungsverzeichnis-Eigenschaften“ angezeigt.
Adresse der Blaze-Job-Überwachung	Der Hostname und die Portnummer für die Blaze-Job-Überwachung. Wird in „Blaze-Konfiguration“ angezeigt.
Name der YARN-Warteschlange	Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt. Wird in „Blaze-Konfiguration“ angezeigt.

Ab Version 10.2 werden die folgenden Eigenschaften umbenannt:

Aktueller Name	Früherer Name	Beschreibung
ImpersonationUserName	HiveUserName	Hadoop-Identitätswechselbenutzer. Der Benutzername, den der Datenintegrationsdienst annimmt, um Zuordnungen in der Hadoop-Umgebung auszuführen.
Name der Hive-Staging-Datenbank	Datenbankname	Namespace für Hive-Staging-Tabellen. Wird in „Allgemeine Eigenschaften“ angezeigt. Wurde bislang in „Hive-Eigenschaften“ angezeigt.
HiveWarehouseDirectory	HiveWarehouseDirectoryOnHDFS	Der absolute HDFS-Dateipfad der Standarddatenbank für das lokale Cluster-Warehouse.
Blaze-Staging-Verzeichnis	Temporäres Arbeitsverzeichnis auf HDFS CadiWorkingDirectory	Der HDFS-Dateipfad des Verzeichnisses, das von der Blaze-Engine zum Speichern temporärer Dateien verwendet wird. Wird in „Blaze-Konfiguration“ angezeigt.
Blaze-Benutzername	Benutzername des Blaze-Diensts CadiUserName	Der Besitzer des Blaze-Diensts und der Blaze-Dienstprotokolle. Wird in „Blaze-Konfiguration“ angezeigt.
Name der YARN-Warteschlange	Name der Yarn-Warteschlange CadiAppYarnQueueName	Der von der Blaze-Engine verwendete Warteschlangenname des YARN-Schedulers, der verfügbare Ressourcen auf einem Cluster angibt. Wird in „Blaze-Konfiguration“ angezeigt.
BlazeMaxPort	CadiMaxPort	Der Maximalwert für den Portnummernbereich der Blaze-Engine.
BlazeMinPort	CadiMinPort	Der Minimalwert für den Portnummernbereich der Blaze-Engine.
BlazeExecutionParameterList	CadiExecutionParameterList	Eine optionale Liste der Konfigurationsparameter, die auf die Blaze-Engine angewendet werden sollen.
SparkYarnQueueName	YarnQueueName	Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt.
Spark-Staging-Verzeichnis	Spark-HDFS-Staging-Verzeichnis	Der HDFS-Dateipfad des Verzeichnisses, das von der Spark-Engine zum Speichern temporärer Dateien für die Ausführung von Jobs verwendet wird.

Ab Version 10.2 werden die folgenden Eigenschaften aus der Verbindung entfernt und in die Clusterkonfiguration importiert:

Eigenschaft	Beschreibung
Adresse des Ressourcenmanagers	Der Dienst innerhalb von Hadoop, der Ressourcenanfragen übermittelt und YARN-Anwendungen erzeugt. Als yarn.resourcemanager.address in die Clusterkonfiguration importiert. Wurde bislang in Hadoop-Cluster-Eigenschaften angezeigt.
URI des Standarddateisystems	Die URI für den Zugriff auf das verteilte Standard-Hadoop-Dateisystem. Als Eigenschaft fs.defaultFS oder fs.default.name in die Clusterkonfiguration importiert. Wurde bislang in Hadoop-Cluster-Eigenschaften angezeigt.

Ab Version 10.2 sind die folgenden Eigenschaften veraltet und werden aus der Verbindung entfernt:

Eigenschaft	Beschreibung
Typ	Der Verbindungstyp. Wurde bislang in „Allgemeine Eigenschaften“ angezeigt.
Metastore-Ausführungsmodus*	Steuert, ob eine Verbindung zu einem Remote-Metastore oder einem lokalen Metastore hergestellt wird. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbank-URI*	Die JDBC-Verbindungs-URI zum Zugriff auf den Datenspeicher in einer lokalen Metastore-Einrichtung. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbanktreiber*	Treiberklassenname für den JDBC-Datenspeicher. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Benutzername der Metastore-Datenbank*	Der Benutzername der Metastore-Datenbank. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbankpasswort*	Das Passwort für den Metastore-Benutzernamen. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Remote-Metastore-URI*	Die Metastore-URI, die für den Zugriff auf Metadaten in einer Remote-Metastore-Einrichtung verwendet wird. Diese Eigenschaft wird als Eigenschaft hive.metastore.uris in die Clusterkonfiguration importiert. Wurde bislang in „Hive-Konfiguration“ angezeigt.
Jobüberwachungs-URL	Die URL für den JobHistory-Server unter MapReduce. Wurde bislang in „Hive-Konfiguration“ angezeigt.
* Diese Eigenschaften sind in 10.2 veraltet. Wenn Sie auf 10.2 aktualisieren, werden die Eigenschaftswerte, die Sie in einer früheren Version festgelegt haben, im Repository gespeichert, sie werden jedoch nicht in den Verbindungseigenschaften angezeigt.

HBase-Verbindungseigenschaften

Ab Version 10.2 werden die folgenden Eigenschaften aus der Verbindung entfernt und in die Clusterkonfiguration importiert:

Eigenschaft	Beschreibung
ZooKeeper-Host(s)	Name des Computers, auf dem der ZooKeeper-Server gehostet wird.
ZooKeeper-Port	Portnummer des Computers, auf dem der ZooKeeper-Server gehostet wird.
Kerberos-Verbindung aktivieren	Ermöglicht der Informatica-Domäne die Kommunikation mit dem HBase-Master- oder -Regionsserver, der Kerberos-Authentifizierung verwendet.
HBase-Master-Prinzipal	Dienst-Prinzipalname (SPN) des HBase-Masterservers.
HBase-Regionsserver-Prinzipal	Dienst-Prinzipalname (SPN) des HBase-Regionsservers.

Hive-Verbindungseigenschaften

Ab Version 10.2 weist PowerExchange for Hive die folgenden Änderungen auf:

•Sie können keine PowerExchange for Hive-Verbindung verwenden, wenn der Hive-Treiber Zuordnungen im Hadoop-Cluster ausführen soll. Wenn Sie den Hive-Treiber zum Ausführen von Zuordnungen im Hadoop-Cluster verwenden möchten, nutzen Sie eine Hadoop-Verbindung.
•Die folgenden Eigenschaften werden aus der Verbindung entfernt und in die Clusterkonfiguration importiert:

Eigenschaft	Beschreibung
Standard-FS-URI	Die URI für den Zugriff auf das verteilte Standard-Hadoop-Dateisystem.
JobTracker/Yarn-Ressourcenmanager-URI	Der Dienst innerhalb von Hadoop, der die MapReduce-Aufgaben an bestimmte Knoten im Cluster sendet.
Hive-Warehouse-Verzeichnis auf HDFS	Der absolute HDFS-Dateipfad der Standarddatenbank für das lokale Cluster-Warehouse.
Metastore-Ausführungsmodus	Steuert, ob eine Verbindung zu einem Remote-Metastore oder einem lokalen Metastore hergestellt wird.
Metastore-Datenbank-URI	Die JDBC-Verbindungs-URI zum Zugriff auf den Datenspeicher in einer lokalen Metastore-Einrichtung.
Metastore-Datenbanktreiber	Treiberklassenname für den JDBC-Datenspeicher.
Benutzername der Metastore-Datenbank	Der Benutzername der Metastore-Datenbank.
Metastore-Datenbankpasswort	Das Passwort für den Metastore-Benutzernamen.
Remote-Metastore-URI	Die Metastore-URI, die für den Zugriff auf Metadaten in einer Remote-Metastore-Einrichtung verwendet wird. Diese Eigenschaft wird als Eigenschaft hive.metastore.uris in die Clusterkonfiguration importiert.

HBase-Verbindungseigenschaften für MapR-DB

Ab Version 10.2 wird die Eigenschaft Kerberos-Verbindung aktivieren aus der HBase-Verbindung für MapR-DB entfernt und in die Clusterkonfiguration importiert.

Laufzeiteigenschaften der Zuordnung

In diesem Abschnitt werden Änderungen an den Zuordnung-Laufzeit-Eigenschaften aufgeführt.

Ausführungsumgebung

Ab Version 10.2 können Sie das Ablehnungsdateiverzeichnis als neue Eigenschaft in der Hadoop-Ausführungsumgebung konfigurieren.

Name	Wert
Ablehnungsdateiverzeichnis	Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen in der Hadoop-Umgebung ausführen. Die Blaze-Engine kann Ablehnungsdateien in die Hadoop-Umgebung für Flatfile-, HDFS- und Hive-Ziele schreiben. Die Spark- und Hive-Engines können Ablehnungsdateien in die Hadoop-Umgebung für Flatfile- und HDFS-Ziele schreiben. Wählen Sie eine der folgenden Optionen aus: - Auf dem Computer des Datenintegrationsdiensts. Der Datenintegrationsdienst speichert die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter. - Im Hadoop-Cluster. Die Ablehnungsdateien werden in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Wenn das Verzeichnis nicht konfiguriert ist, schlägt die Zuordnung fehl. - Verzögern Sie die Hadoop-Verbindung. Die Ablehnungsdateien werden abhängig davon, ob das Ablehnungsverzeichnis in den Hadoop-Verbindungseigenschaften aktiviert ist, verschoben. Wenn das Ablehnungsverzeichnis aktiviert ist, werden die Ablehnungsdateien in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Andernfalls speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.

Name

Wert

Ablehnungsdateiverzeichnis

Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen in der Hadoop-Umgebung ausführen.

Die Blaze-Engine kann Ablehnungsdateien in die Hadoop-Umgebung für Flatfile-, HDFS- und Hive-Ziele schreiben. Die Spark- und Hive-Engines können Ablehnungsdateien in die Hadoop-Umgebung für Flatfile- und HDFS-Ziele schreiben.

Wählen Sie eine der folgenden Optionen aus:

- Auf dem Computer des Datenintegrationsdiensts. Der Datenintegrationsdienst speichert die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.
- Im Hadoop-Cluster. Die Ablehnungsdateien werden in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Wenn das Verzeichnis nicht konfiguriert ist, schlägt die Zuordnung fehl.
- Verzögern Sie die Hadoop-Verbindung. Die Ablehnungsdateien werden abhängig davon, ob das Ablehnungsverzeichnis in den Hadoop-Verbindungseigenschaften aktiviert ist, verschoben. Wenn das Ablehnungsverzeichnis aktiviert ist, werden die Ablehnungsdateien in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Andernfalls speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.

Überwachung

Ab Version 10.2 enthält die Zeile AllHiveSourceTables in der Ansicht Zusammenfassungsstatistik im Administrator Tool Datensätze, die aus den folgenden Quellen gelesen werden:

•Ursprüngliche Hive-Quellen in der Zuordnung.
•Staging-Hive-Tabellen, die durch die Hive-Engine definiert werden.
•Staging-Daten zwischen zwei verknüpften MapReduce-Aufträgen in jeder Abfrage.

Wenn die LDTM-Sitzung einen MapReduce-Auftrag enthält, enthält die AllHiveSourceTables-Statistik nur ursprüngliche Hive-Quellen in der Zuordnung.

Weitere Informationen finden Sie im Kapitel „Überwachen von Zuordnungen in der Hadoop-Umgebung“ des Benutzerhandbuchs zu Big Data Management 10.2.

Eigenschaften für S3-Zugriff und geheime Schlüssel

Ab Version 10.2 sind die folgenden Eigenschaften in der Liste der sensiblen Eigenschaften einer Clusterkonfiguration enthalten:

•fs.s3a.access.key
•fs.s3a.secret.key
•fs.s3n.awsAccessKeyId
•fs.s3n.awsSecretAccessKey
•fs.s3.awsAccessKeyId
•fs.s3.awsSecretAccessKey

Sensible Eigenschaften werden eingeschlossen, jedoch maskiert, wenn Sie eine Clusterkonfigurations-Archivdatei generieren, die auf dem Computer bereitgestellt werden soll, auf dem das Developer Tool ausgeführt wird.

Zuvor haben Sie diese Eigenschaften in XML-Konfigurationsdateien auf den Computern konfiguriert, die den Datenintegrationsdienst und das Developer Tool ausführen.

Weitere Informationen zu sensiblen Eigenschaften finden Sie im Administratorhandbuch zu Informatica Big Data Management 10.2.

Sqoop

Ab Version 10.2 ignoriert Sqoop die Passwortdatei, wenn Sie eine Passwortdatei für den Zugriff auf eine Datenbank erstellen. Sqoop verwendet den Wert, den Sie im Feld Passwort der JDBC-Verbindung konfigurieren.

Zuvor konnten Sie eine Passwortdatei für den Zugriff auf eine Datenbank erstellen.

Weitere Informationen finden Sie im Kapitel zum Mapping von Objekten in einer Hadoop-Umgebung im Benutzerhandbuch zu Informatica Big Data Management 10.2.