Hadoop-Verbindungseigenschaften

Eigenschaft	Beschreibung
Name	Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten: ~ ` ! $ % ^ & * ( ) - + = { [ } ] \| \ : ; " ' < , > . ? /
ID	Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname.
Beschreibung	Die Beschreibung der Verbindung. Geben Sie eine Zeichenfolge ein, mit der Sie die Verbindung angeben können. Die Beschreibung darf nicht mehr als 4.000 Zeichen enthalten.
Cluster-Konfiguration	Der Name der mit der Hadoop-Umgebung verknüpften Cluster-Konfiguration. Erforderlich, wenn Sie die Cloud-Bereitstellungskonfiguration nicht konfigurieren.
Cloud-Bereitstellungskonfiguration	Name der Cloud-Bereitstellungskonfiguration, die einer Cloud-Plattform wie Amazon AWS oder Microsoft Azure zugeordnet ist. Erforderlich, wenn Sie die Cluster-Konfiguration nicht konfigurieren.
Cluster-Umgebungsvariablen*	Umgebungsvariablen, die vom Hadoop-Cluster verwendet werden. Konfigurieren Sie bei Verwendung eines Cloudera CDH 6.x- oder eines Cloudera CDP-Clusters die Gebietsschemaeinstellung als Cluster-Umgebungsvariablen. In Cloudera Manager müssen Sie darüber hinaus die Umgebungsvariablen zu folgender YARN-Eigenschaft hinzufügen: yarn.nodemanager.env-whitelist Die Variable ORACLE_HOME stellt beispielsweise das Verzeichnis dar, in dem die Software des Oracle-Datenbank-Clients installiert ist. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: 1Zuordnung der mit dem Befehl infacmd ms runMapping und der Option -cp festgelegten benutzerdefinierten Eigenschaften 2Zuordnung der Laufzeiteigenschaften für die Hadoop-Umgebung 3Erweiterte Eigenschaften der Hadoop-Verbindung für Laufzeit-Engines 4Erweiterte allgemeine Eigenschaften, Umgebungsvariablen und Klassenpfade der Hadoop-Verbindung 5Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez
Cluster-Bibliothekspfad*	Der Pfad für freigegebene Bibliotheken auf dem Cluster. Die Variable $DEFAULT_CLUSTER_LIBRARY_PATH enthält eine Liste der Standardverzeichnisse.
Cluster-Klassenpfad*	Der Klassenpfad für den Zugriff auf die Hadoop-JAR-Dateien und die benötigten Bibliotheken. Die Variable $DEFAULT_CLUSTER_CLASSPATH enthält eine Liste mit Pfaden der Standard-JAR-Dateien und Bibliotheken. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: 1Zuordnung der mit dem Befehl infacmd ms runMapping und der Option -cp festgelegten benutzerdefinierten Eigenschaften 2Zuordnung der Laufzeiteigenschaften für die Hadoop-Umgebung 3Erweiterte Eigenschaften der Hadoop-Verbindung für Laufzeit-Engines 4Erweiterte allgemeine Eigenschaften, Umgebungsvariablen und Klassenpfade der Hadoop-Verbindung 5Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez
Pfad der ausführbaren Datei des Clusters*	Der Pfad für ausführbare Dateien auf dem Cluster. Die Variable $DEFAULT_CLUSTER_EXEC_PATH enthält eine Liste mit Pfaden der ausführbaren Standarddateien.
* Bevor Sie sich nicht in der Drittanbieter- und Informatica-Dokumentation oder beim globalen Kundensupport von Informatica entsprechend informiert haben, rät Informatica von der Änderung dieser Eigenschaftswerte ab. Wenn Sie einen Wert ohne Kenntnis der Eigenschaft ändern, kann es zu Leistungseinbußen oder anderen unerwarteten Ergebnissen kommen.

Allgemeine Eigenschaften

Eigenschaft	Beschreibung
Benutzername für Identitätswechsel	Erforderlich, wenn der Hadoop-Cluster die Kerberos-Authentifizierung verwendet. Benutzer für den Hadoop-Identitätswechsel. Der Benutzername, den der Datenintegrationsdienst zum Ausführen von Zuordnungen im Hadoop-Cluster verwendet. Data Engineering Integration unterstützt Betriebssystemprofile auf allen Hadoop-Distributionen. In der Hadoop-Laufzeitumgebung überträgt der Datenintegrationsdienst die Verarbeitung per Push an den Hadoop-Cluster und die Laufzeit-Engines führen Zuordnungen mit den vom Betriebssystemprofil angegebenen Hadoop-Identitätswechseleigenschaften aus.
Temporärer Tabellen-Komprimierungs-Codec	Hadoop-Komprimierungsbibliothek für einen Komprimierungs-Codec-Klassennamen. HINWEIS: Die Spark-Engine unterstützt keine Komprimierungseinstellungen für temporäre Tabellen. Wenn Sie Zuordnungen in der Spark-Engine ausführen, speichert die Spark-Engine temporäre Tabellen in einem nicht komprimierten Dateiformat.
Codec-Klassenname	Codec-Klassenname, der die Datenkomprimierung aktiviert und die Leistung in temporären Staging-Tabellen verbessert.
Name der Hive-Staging-Datenbank	Namespace für Hive-Staging-Tabellen. Verwenden Sie den Namen default für Tabellen, bei denen kein Datenbankname angegeben wurde. Wenn Sie keinen Namespace konfigurieren, verwendet der Datenintegrationsdienst den Namen der Hive-Datenbank in der Hive-Zielverbindung, um Staging-Tabellen zu erstellen. Wenn Sie ein Mapping in der nativen Umgebung ausführen, um Daten in Hive zu schreiben, müssen Sie den Namen der Hive-Staging-Datenbank in der Hive-Verbindung konfigurieren. Der Datenintegrationsdienst ignoriert den Wert, den Sie in der Hadoop-Verbindung konfigurieren.
Umgebungs-SQL	SQL-Befehle zum Einrichten der Hadoop-Umgebung. Der Datenintegrationsdienst führt die Umgebungs-SQL am Anfang jedes Hive-Skripts aus, das von einem HiveServer2-Job erzeugt wurde. Die folgenden Regeln und Richtlinien gelten für die Verwendung von Umgebungs-SQL: - Sie können Umgebungs-SQL zum Definieren von Hadoop- oder Hive-Parametern verwenden, die Sie in den PreSQL-Befehlen oder in benutzerspezifischen Abfragen nutzen möchten. - Wenn Sie mehrere Werte für die Eigenschaft „Umgebungs-SQL“ verwenden, stellen Sie sicher, dass sich zwischen den Werten keine Leerzeichen befinden.
Engine-Typ	Der Datenintegrationsdienst verwendet HiveServer2, um Teile von einigen Jobs zu verarbeiten, indem HiveServer2-Aufgaben auf der Spark-Engine ausgeführt werden. Wenn Sie die Clusterkonfiguration über das Administrator Tool importieren, können Sie Verbindungen erstellen. Die Engine-Typeigenschaft wird standardmäßig basierend auf der Distribution aufgefüllt. Wenn Sie eine Verbindung manuell erstellen, müssen Sie den Engine-Typ konfigurieren. Sie können den Engine-Typ basierend auf den folgenden Hadoop-Distributionen angeben: - Amazon EMR. Tez - Azure HDI. Tez - Cloudera CDH. MRv2 - Cloudera CDP. Tez - Dataproc MRv2 - Hortonworks HDP. Tez - MapR. MRv2
Erweiterte Eigenschaften	Liste der erweiterten Eigenschaften, die nur für die Hadoop-Umgebung gelten. Die Eigenschaften gelten für die Blaze- und die Spark-Engine. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: 1Zuordnung der mit dem Befehl infacmd ms runMapping und der Option -cp festgelegten benutzerdefinierten Eigenschaften 2Zuordnung der Laufzeiteigenschaften für die Hadoop-Umgebung 3Erweiterte Eigenschaften der Hadoop-Verbindung für Laufzeit-Engines 4Erweiterte allgemeine Eigenschaften, Umgebungsvariablen und Klassenpfade der Hadoop-Verbindung 5Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez

Eigenschaften des Ablehnungsverzeichnisses

Eigenschaft	Beschreibung
Ablehnungsdateien in Hadoop schreiben	Wenn Sie die Blaze-Engine zum Ausführen von Zuordnungen verwenden, aktivieren Sie das Kontrollkästchen zur Angabe eines Speicherorts, in den Ablehnungsdateien verschoben werden. Bei aktiviertem Kontrollkästchen verschiebt der Datenintegrationsdienst die Ablehnungsdateien in den HDFS-Speicherort, der in der Eigenschaft „Verzeichnis der Ablehnungsdatei“ aufgeführt ist. Standardmäßig speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.
Verzeichnis für abgelehnte Dateien	Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen ausführen.

Eigenschaft

Beschreibung

Ablehnungsdateien in Hadoop schreiben

Wenn Sie die Blaze-Engine zum Ausführen von Zuordnungen verwenden, aktivieren Sie das Kontrollkästchen zur Angabe eines Speicherorts, in den Ablehnungsdateien verschoben werden. Bei aktiviertem Kontrollkästchen verschiebt der Datenintegrationsdienst die Ablehnungsdateien in den HDFS-Speicherort, der in der Eigenschaft „Verzeichnis der Ablehnungsdatei“ aufgeführt ist.

Standardmäßig speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter.

Verzeichnis für abgelehnte Dateien

Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen ausführen.

Blaze-Konfiguration

Eigenschaft	Beschreibung
Blaze-Staging-Verzeichnis	Der HDFS-Dateipfad des Verzeichnisses, das von der Blaze-Engine zum Speichern temporärer Dateien verwendet wird. Stellen Sie sicher, dass das Verzeichnis vorhanden ist. Der YARN-Benutzer, der Benutzer der Blaze-Engine und der Benutzer für Identitätswechsel von Zuordnungen müssen über Schreibberechtigungen für dieses Verzeichnis verfügen. Standardwert ist /blaze/workdir. Wenn Sie diese Eigenschaft löschen, werden die Staging-Dateien in das Hadoop-Staging-Verzeichnis /tmp/blaze_<Benutzername> geschrieben.
Blaze-Benutzername	Der Eigentümer des Blaze-Dienstes und der Blaze-Dienstprotokolle. Wenn der Hadoop-Cluster die Kerberos-Authentifizierung verwendet, ist der standardmäßige Benutzer der SPN-Benutzer des Datenintegrationsdiensts. Wenn der Hadoop-Cluster die Kerberos-Authentifizierung nicht verwendet und der Blaze-Benutzer nicht konfiguriert ist, ist der standardmäßige Benutzer der Datenintegrationsdienst-Benutzer.
Niedrigste Portnummer	Der Minimalwert für den Portnummernbereich der Blaze-Engine. Standardwert ist 12300.
Höchste Portnummer	Der Maximalwert für den Portnummernbereich der Blaze-Engine. Standardwert ist 12600.
Name der YARN-Warteschlange	Der von der Blaze-Engine verwendete Warteschlangenname des YARN-Schedulers, der verfügbare Ressourcen auf einem Cluster angibt. HINWEIS: Wenn vorzeitige YARN-Entfernung auf dem Cluster aktiviert ist, vergewissern Sie sich beim Hadoop-Administrator, dass vorzeitige Entfernung in der mit der Blaze-Engine verknüpften Warteschlange deaktiviert ist.
Adresse der Blaze-Job-Überwachung	Der Hostname und die Portnummer für die Blaze-Job-Überwachung. Verwenden Sie das folgende Format: <hostname>:<port> Wobei - <hostname> ist der Hostname oder die IP-Adresse des Servers der Blaze-Job-Überwachung. - <port> ist der Port, den die Blaze-Job-Überwachung auf Remoteprozeduraufrufe (RPC) abhört. Geben Sie beispielsweise Folgendes ein: myhostname:9080
Blaze YARN-Knotenbezeichnung	Knotenbezeichnung, die den Knoten auf dem Hadoop-Cluster bestimmt, auf dem die Blaze-Engine läuft. Wenn Sie keine Knotenbezeichnung angeben, läuft die Blaze-Engine auf den Knoten in der Standardpartition. Wenn der Hadoop-Cluster logische Operatoren für Knotenbezeichnungen unterstützt, können Sie eine Liste von Knotenbezeichnungen angeben. Um die Knotenbezeichnungen aufzulisten, verwenden Sie die Operatoren && (UND), \|\|\| (ODER) und ! (NICHT). HINWEIS: Sie können keine Knotenbezeichnungen für einen Cloudera CDH-Cluster verwenden.
Erweiterte Eigenschaften	Liste der erweiterten Eigenschaften, die nur für die Blaze-Engine gelten. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: 1Zuordnung der mit dem Befehl infacmd ms runMapping und der Option -cp festgelegten benutzerdefinierten Eigenschaften 2Zuordnung der Laufzeiteigenschaften für die Hadoop-Umgebung 3Erweiterte Eigenschaften der Hadoop-Verbindung für Laufzeit-Engines 4Erweiterte allgemeine Eigenschaften, Umgebungsvariablen und Klassenpfade der Hadoop-Verbindung 5Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez

Spark-Konfiguration

Eigenschaft	Beschreibung
Spark-Staging-Verzeichnis	Der HDFS-Dateipfad des Verzeichnisses, das von der Spark-Engine zum Speichern temporärer Dateien für die Ausführung von Jobs verwendet wird. Der YARN-Benutzer, Datenintegrationsdienst-Benutzer und Zuordnungs-Identitätswechsel-Benutzer müssen über Schreibberechtigung für dieses Verzeichnis verfügen. Wenn Sie keinen Dateipfad angeben, werden die temporären Dateien standardmäßig in das Hadoop-Staging-Verzeichnis /tmp/SPARK_<Benutzername> geschrieben. Wenn Sie Sqoop-Jobs auf der Spark-Engine ausführen, erstellt der Datenintegrationsdienst ein Sqoop-Staging-Verzeichnis unter dem Spark-Staging-Verzeichnis, um temporäre Dateien zu speichern: <Spark-Staging-Verzeichnis>/sqoop_staging
Verzeichnis des Spark-Ereignisprotokolls	Optional. Der HDFS-Dateipfad des Verzeichnisses, das die Spark-Engine zur Protokollierung von Ereignissen verwendet.
Name der YARN-Warteschlange	Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt. Bei diesem Namen wird zwischen Groß- und Kleinschreibung unterschieden.
Erweiterte Eigenschaften	Liste der erweiterten Eigenschaften, die nur für die Spark-Engine gelten. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: 1Zuordnung der mit dem Befehl infacmd ms runMapping und der Option -cp festgelegten benutzerdefinierten Eigenschaften 2Zuordnung der Laufzeiteigenschaften für die Hadoop-Umgebung 3Erweiterte Eigenschaften der Hadoop-Verbindung für Laufzeit-Engines 4Erweiterte allgemeine Eigenschaften, Umgebungsvariablen und Klassenpfade der Hadoop-Verbindung 5Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez

Hadoop-Verbindungseigenschaften

Eigenschaften des Hadoop-Clusters

Allgemeine Eigenschaften

Eigenschaften des Ablehnungsverzeichnisses

Blaze-Konfiguration

Spark-Konfiguration