What's New and Changed (10.5.7) > Teil XIII: Version 10.2 - 10.2 HotFix 2 > Änderungen in 10.2 > Big Data
  

Big Data

In diesem Abschnitt werden Änderungen an Big Data in 10.2 erläutert.

Hadoop-Verbindung

Ab Version 10.2 wirken sich die folgenden Änderungen auf die Hadoop-Verbindungseigenschaften aus.
Sie können die folgenden Eigenschaften verwenden, um Ihre Hadoop-Verbindung zu konfigurieren:
Eigenschaft
Beschreibung
Clusterkonfiguration
Der Name der mit der Hadoop-Umgebung verknüpften Clusterkonfiguration.
Wird in „Allgemeine Eigenschaften“ angezeigt.
Ablehnungsdateien in Hadoop schreiben
Wählen Sie die Eigenschaft aus, um die Ablehnungsdateien an den HDFS-Speicherort zu verschieben, der in der Eigenschaft „Verzeichnis der Ablehnungsdatei“ aufgelistet wird, wenn Sie Zuordnungen ausführen.
Wird in „Ablehnungsverzeichnis-Eigenschaften“ angezeigt.
Ablehnungsdateiverzeichnis
Das Verzeichnis für Hadoop-Mapping-Dateien auf HDFS, wenn Sie Zuordnungen ausführen.
Wird in „Ablehnungsverzeichnis-Eigenschaften“ angezeigt.
Adresse der Blaze-Job-Überwachung
Der Hostname und die Portnummer für die Blaze-Job-Überwachung.
Wird in „Blaze-Konfiguration“ angezeigt.
Name der YARN-Warteschlange
Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt.
Wird in „Blaze-Konfiguration“ angezeigt.
Ab Version 10.2 werden die folgenden Eigenschaften umbenannt:
Aktueller Name
Früherer Name
Beschreibung
ImpersonationUserName
HiveUserName
Hadoop-Identitätswechselbenutzer. Der Benutzername, den der Datenintegrationsdienst annimmt, um Zuordnungen in der Hadoop-Umgebung auszuführen.
Name der Hive-Staging-Datenbank
Datenbankname
Namespace für Hive-Staging-Tabellen.
Wird in „Allgemeine Eigenschaften“ angezeigt.
Wurde bislang in „Hive-Eigenschaften“ angezeigt.
HiveWarehouseDirectory
HiveWarehouseDirectoryOnHDFS
Der absolute HDFS-Dateipfad der Standarddatenbank für das lokale Cluster-Warehouse.
Blaze-Staging-Verzeichnis
Temporäres Arbeitsverzeichnis auf HDFS
CadiWorkingDirectory
Der HDFS-Dateipfad des Verzeichnisses, das von der Blaze-Engine zum Speichern temporärer Dateien verwendet wird.
Wird in „Blaze-Konfiguration“ angezeigt.
Blaze-Benutzername
Benutzername des Blaze-Diensts
CadiUserName
Der Besitzer des Blaze-Diensts und der Blaze-Dienstprotokolle.
Wird in „Blaze-Konfiguration“ angezeigt.
Name der YARN-Warteschlange
Name der Yarn-Warteschlange
CadiAppYarnQueueName
Der von der Blaze-Engine verwendete Warteschlangenname des YARN-Schedulers, der verfügbare Ressourcen auf einem Cluster angibt.
Wird in „Blaze-Konfiguration“ angezeigt.
BlazeMaxPort
CadiMaxPort
Der Maximalwert für den Portnummernbereich der Blaze-Engine.
BlazeMinPort
CadiMinPort
Der Minimalwert für den Portnummernbereich der Blaze-Engine.
BlazeExecutionParameterList
CadiExecutionParameterList
Eine optionale Liste der Konfigurationsparameter, die auf die Blaze-Engine angewendet werden sollen.
SparkYarnQueueName
YarnQueueName
Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt.
Spark-Staging-Verzeichnis
Spark-HDFS-Staging-Verzeichnis
Der HDFS-Dateipfad des Verzeichnisses, das von der Spark-Engine zum Speichern temporärer Dateien für die Ausführung von Jobs verwendet wird.
Ab Version 10.2 werden die folgenden Eigenschaften aus der Verbindung entfernt und in die Clusterkonfiguration importiert:
Eigenschaft
Beschreibung
Adresse des Ressourcenmanagers
Der Dienst innerhalb von Hadoop, der Ressourcenanfragen übermittelt und YARN-Anwendungen erzeugt.
Als yarn.resourcemanager.address in die Clusterkonfiguration importiert.
Wurde bislang in Hadoop-Cluster-Eigenschaften angezeigt.
URI des Standarddateisystems
Die URI für den Zugriff auf das verteilte Standard-Hadoop-Dateisystem.
Als Eigenschaft fs.defaultFS oder fs.default.name in die Clusterkonfiguration importiert.
Wurde bislang in Hadoop-Cluster-Eigenschaften angezeigt.
Ab Version 10.2 sind die folgenden Eigenschaften veraltet und werden aus der Verbindung entfernt:
Eigenschaft
Beschreibung
Typ
Der Verbindungstyp.
Wurde bislang in „Allgemeine Eigenschaften“ angezeigt.
Metastore-Ausführungsmodus*
Steuert, ob eine Verbindung zu einem Remote-Metastore oder einem lokalen Metastore hergestellt wird.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbank-URI*
Die JDBC-Verbindungs-URI zum Zugriff auf den Datenspeicher in einer lokalen Metastore-Einrichtung.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbanktreiber*
Treiberklassenname für den JDBC-Datenspeicher.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Benutzername der Metastore-Datenbank*
Der Benutzername der Metastore-Datenbank.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Metastore-Datenbankpasswort*
Das Passwort für den Metastore-Benutzernamen.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Remote-Metastore-URI*
Die Metastore-URI, die für den Zugriff auf Metadaten in einer Remote-Metastore-Einrichtung verwendet wird.
Diese Eigenschaft wird als Eigenschaft hive.metastore.uris in die Clusterkonfiguration importiert.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
Jobüberwachungs-URL
Die URL für den JobHistory-Server unter MapReduce.
Wurde bislang in „Hive-Konfiguration“ angezeigt.
* Diese Eigenschaften sind in 10.2 veraltet. Wenn Sie auf 10.2 aktualisieren, werden die Eigenschaftswerte, die Sie in einer früheren Version festgelegt haben, im Repository gespeichert, sie werden jedoch nicht in den Verbindungseigenschaften angezeigt.

HBase-Verbindungseigenschaften

Ab Version 10.2 werden die folgenden Eigenschaften aus der Verbindung entfernt und in die Clusterkonfiguration importiert:
Eigenschaft
Beschreibung
ZooKeeper-Host(s)
Name des Computers, auf dem der ZooKeeper-Server gehostet wird.
ZooKeeper-Port
Portnummer des Computers, auf dem der ZooKeeper-Server gehostet wird.
Kerberos-Verbindung aktivieren
Ermöglicht der Informatica-Domäne die Kommunikation mit dem HBase-Master- oder -Regionsserver, der Kerberos-Authentifizierung verwendet.
HBase-Master-Prinzipal
Dienst-Prinzipalname (SPN) des HBase-Masterservers.
HBase-Regionsserver-Prinzipal
Dienst-Prinzipalname (SPN) des HBase-Regionsservers.

Hive-Verbindungseigenschaften

Ab Version 10.2 weist PowerExchange for Hive die folgenden Änderungen auf:

HBase-Verbindungseigenschaften für MapR-DB

Ab Version 10.2 wird die Eigenschaft Kerberos-Verbindung aktivieren aus der HBase-Verbindung für MapR-DB entfernt und in die Clusterkonfiguration importiert.

Laufzeiteigenschaften der Zuordnung

In diesem Abschnitt werden Änderungen an den Zuordnung-Laufzeit-Eigenschaften aufgeführt.

Ausführungsumgebung

Ab Version 10.2 können Sie das Ablehnungsdateiverzeichnis als neue Eigenschaft in der Hadoop-Ausführungsumgebung konfigurieren.
Name
Wert
Ablehnungsdateiverzeichnis
Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen in der Hadoop-Umgebung ausführen.
Die Blaze-Engine kann Ablehnungsdateien in die Hadoop-Umgebung für Flatfile-, HDFS- und Hive-Ziele schreiben. Die Spark- und Hive-Engines können Ablehnungsdateien in die Hadoop-Umgebung für Flatfile- und HDFS-Ziele schreiben.
Wählen Sie eine der folgenden Optionen aus:
  • - Auf dem Computer des Datenintegrationsdiensts. Der Datenintegrationsdienst speichert die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.
  • - Im Hadoop-Cluster. Die Ablehnungsdateien werden in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Wenn das Verzeichnis nicht konfiguriert ist, schlägt die Zuordnung fehl.
  • - Verzögern Sie die Hadoop-Verbindung. Die Ablehnungsdateien werden abhängig davon, ob das Ablehnungsverzeichnis in den Hadoop-Verbindungseigenschaften aktiviert ist, verschoben. Wenn das Ablehnungsverzeichnis aktiviert ist, werden die Ablehnungsdateien in das in der Hadoop-Verbindung konfigurierte Ablehnungsverzeichnis verschoben. Andernfalls speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.

Überwachung

Ab Version 10.2 enthält die Zeile AllHiveSourceTables in der Ansicht Zusammenfassungsstatistik im Administrator Tool Datensätze, die aus den folgenden Quellen gelesen werden:
Wenn die LDTM-Sitzung einen MapReduce-Auftrag enthält, enthält die AllHiveSourceTables-Statistik nur ursprüngliche Hive-Quellen in der Zuordnung.
Weitere Informationen finden Sie im Kapitel „Überwachen von Zuordnungen in der Hadoop-Umgebung“ des Benutzerhandbuchs zu Big Data Management 10.2.

Eigenschaften für S3-Zugriff und geheime Schlüssel

Ab Version 10.2 sind die folgenden Eigenschaften in der Liste der sensiblen Eigenschaften einer Clusterkonfiguration enthalten:
Sensible Eigenschaften werden eingeschlossen, jedoch maskiert, wenn Sie eine Clusterkonfigurations-Archivdatei generieren, die auf dem Computer bereitgestellt werden soll, auf dem das Developer Tool ausgeführt wird.
Zuvor haben Sie diese Eigenschaften in XML-Konfigurationsdateien auf den Computern konfiguriert, die den Datenintegrationsdienst und das Developer Tool ausführen.
Weitere Informationen zu sensiblen Eigenschaften finden Sie im Administratorhandbuch zu Informatica Big Data Management 10.2.

Sqoop

Ab Version 10.2 ignoriert Sqoop die Passwortdatei, wenn Sie eine Passwortdatei für den Zugriff auf eine Datenbank erstellen. Sqoop verwendet den Wert, den Sie im Feld Passwort der JDBC-Verbindung konfigurieren.
Zuvor konnten Sie eine Passwortdatei für den Zugriff auf eine Datenbank erstellen.
Weitere Informationen finden Sie im Kapitel zum Mapping von Objekten in einer Hadoop-Umgebung im Benutzerhandbuch zu Informatica Big Data Management 10.2.