Eigenschaft | Beschreibung |
|---|---|
Name | Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten: ~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? / |
ID | Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname. |
Beschreibung | Die Beschreibung der Verbindung. Geben Sie eine Zeichenfolge ein, mit der Sie die Verbindung angeben können. Die Beschreibung darf nicht mehr als 4.000 Zeichen enthalten. |
Cluster-Konfiguration | Der Name der mit der Hadoop-Umgebung verknüpften Cluster-Konfiguration. Erforderlich, wenn Sie die Cloud-Bereitstellungskonfiguration nicht konfigurieren. |
Cloud-Bereitstellungskonfiguration | Name der Cloud-Bereitstellungskonfiguration, die einer Cloud-Plattform wie Amazon AWS oder Microsoft Azure zugeordnet ist. Erforderlich, wenn Sie die Cluster-Konfiguration nicht konfigurieren. |
Cluster-Umgebungsvariablen* | Umgebungsvariablen, die vom Hadoop-Cluster verwendet werden. Konfigurieren Sie bei Verwendung eines Cloudera CDH 6.x- oder eines Cloudera CDP-Clusters die Gebietsschemaeinstellung als Cluster-Umgebungsvariablen. In Cloudera Manager müssen Sie darüber hinaus die Umgebungsvariablen zu folgender YARN-Eigenschaft hinzufügen: yarn.nodemanager.env-whitelist Die Variable ORACLE_HOME stellt beispielsweise das Verzeichnis dar, in dem die Software des Oracle-Datenbank-Clients installiert ist. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez |
Cluster-Bibliothekspfad* | Der Pfad für freigegebene Bibliotheken auf dem Cluster. Die Variable $DEFAULT_CLUSTER_LIBRARY_PATH enthält eine Liste der Standardverzeichnisse. |
Cluster-Klassenpfad* | Der Klassenpfad für den Zugriff auf die Hadoop-JAR-Dateien und die benötigten Bibliotheken. Die Variable $DEFAULT_CLUSTER_CLASSPATH enthält eine Liste mit Pfaden der Standard-JAR-Dateien und Bibliotheken. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez |
Pfad der ausführbaren Datei des Clusters* | Der Pfad für ausführbare Dateien auf dem Cluster. Die Variable $DEFAULT_CLUSTER_EXEC_PATH enthält eine Liste mit Pfaden der ausführbaren Standarddateien. |
* Bevor Sie sich nicht in der Drittanbieter- und Informatica-Dokumentation oder beim globalen Kundensupport von Informatica entsprechend informiert haben, rät Informatica von der Änderung dieser Eigenschaftswerte ab. Wenn Sie einen Wert ohne Kenntnis der Eigenschaft ändern, kann es zu Leistungseinbußen oder anderen unerwarteten Ergebnissen kommen. | |
Eigenschaft | Beschreibung |
|---|---|
Benutzername für Identitätswechsel | Erforderlich, wenn der Hadoop-Cluster die Kerberos-Authentifizierung verwendet. Benutzer für den Hadoop-Identitätswechsel. Der Benutzername, den der Datenintegrationsdienst zum Ausführen von Zuordnungen im Hadoop-Cluster verwendet. Data Engineering Integration unterstützt Betriebssystemprofile auf allen Hadoop-Distributionen. In der Hadoop-Laufzeitumgebung überträgt der Datenintegrationsdienst die Verarbeitung per Push an den Hadoop-Cluster und die Laufzeit-Engines führen Zuordnungen mit den vom Betriebssystemprofil angegebenen Hadoop-Identitätswechseleigenschaften aus. |
Temporärer Tabellen-Komprimierungs-Codec | Hadoop-Komprimierungsbibliothek für einen Komprimierungs-Codec-Klassennamen. HINWEIS: Die Spark-Engine unterstützt keine Komprimierungseinstellungen für temporäre Tabellen. Wenn Sie Zuordnungen in der Spark-Engine ausführen, speichert die Spark-Engine temporäre Tabellen in einem nicht komprimierten Dateiformat. |
Codec-Klassenname | Codec-Klassenname, der die Datenkomprimierung aktiviert und die Leistung in temporären Staging-Tabellen verbessert. |
Name der Hive-Staging-Datenbank | Namespace für Hive-Staging-Tabellen. Verwenden Sie den Namen default für Tabellen, bei denen kein Datenbankname angegeben wurde. Wenn Sie keinen Namespace konfigurieren, verwendet der Datenintegrationsdienst den Namen der Hive-Datenbank in der Hive-Zielverbindung, um Staging-Tabellen zu erstellen. Wenn Sie ein Mapping in der nativen Umgebung ausführen, um Daten in Hive zu schreiben, müssen Sie den Namen der Hive-Staging-Datenbank in der Hive-Verbindung konfigurieren. Der Datenintegrationsdienst ignoriert den Wert, den Sie in der Hadoop-Verbindung konfigurieren. |
Umgebungs-SQL | SQL-Befehle zum Einrichten der Hadoop-Umgebung. Der Datenintegrationsdienst führt die Umgebungs-SQL am Anfang jedes Hive-Skripts aus, das von einem HiveServer2-Job erzeugt wurde. Die folgenden Regeln und Richtlinien gelten für die Verwendung von Umgebungs-SQL:
|
Engine-Typ | Der Datenintegrationsdienst verwendet HiveServer2, um Teile von einigen Jobs zu verarbeiten, indem HiveServer2-Aufgaben auf der Spark-Engine ausgeführt werden. Wenn Sie die Clusterkonfiguration über das Administrator Tool importieren, können Sie Verbindungen erstellen. Die Engine-Typeigenschaft wird standardmäßig basierend auf der Distribution aufgefüllt. Wenn Sie eine Verbindung manuell erstellen, müssen Sie den Engine-Typ konfigurieren. Sie können den Engine-Typ basierend auf den folgenden Hadoop-Distributionen angeben:
|
Erweiterte Eigenschaften | Liste der erweiterten Eigenschaften, die nur für die Hadoop-Umgebung gelten. Die Eigenschaften gelten für die Blaze- und die Spark-Engine. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez |
Eigenschaft | Beschreibung |
|---|---|
Ablehnungsdateien in Hadoop schreiben | Wenn Sie die Blaze-Engine zum Ausführen von Zuordnungen verwenden, aktivieren Sie das Kontrollkästchen zur Angabe eines Speicherorts, in den Ablehnungsdateien verschoben werden. Bei aktiviertem Kontrollkästchen verschiebt der Datenintegrationsdienst die Ablehnungsdateien in den HDFS-Speicherort, der in der Eigenschaft „Verzeichnis der Ablehnungsdatei“ aufgeführt ist. Standardmäßig speichert der Datenintegrationsdienst die Ablehnungsdateien basierend auf dem RejectDir-Systemparameter. |
Verzeichnis für abgelehnte Dateien | Das Verzeichnis für Hadoop-Zuordnungsdateien auf HDFS, wenn Sie Zuordnungen ausführen. |
Eigenschaft | Beschreibung |
|---|---|
Blaze-Staging-Verzeichnis | Der HDFS-Dateipfad des Verzeichnisses, das von der Blaze-Engine zum Speichern temporärer Dateien verwendet wird. Stellen Sie sicher, dass das Verzeichnis vorhanden ist. Der YARN-Benutzer, der Benutzer der Blaze-Engine und der Benutzer für Identitätswechsel von Zuordnungen müssen über Schreibberechtigungen für dieses Verzeichnis verfügen. Standardwert ist /blaze/workdir. Wenn Sie diese Eigenschaft löschen, werden die Staging-Dateien in das Hadoop-Staging-Verzeichnis /tmp/blaze_<Benutzername> geschrieben. |
Blaze-Benutzername | Der Eigentümer des Blaze-Dienstes und der Blaze-Dienstprotokolle. Wenn der Hadoop-Cluster die Kerberos-Authentifizierung verwendet, ist der standardmäßige Benutzer der SPN-Benutzer des Datenintegrationsdiensts. Wenn der Hadoop-Cluster die Kerberos-Authentifizierung nicht verwendet und der Blaze-Benutzer nicht konfiguriert ist, ist der standardmäßige Benutzer der Datenintegrationsdienst-Benutzer. |
Niedrigste Portnummer | Der Minimalwert für den Portnummernbereich der Blaze-Engine. Standardwert ist 12300. |
Höchste Portnummer | Der Maximalwert für den Portnummernbereich der Blaze-Engine. Standardwert ist 12600. |
Name der YARN-Warteschlange | Der von der Blaze-Engine verwendete Warteschlangenname des YARN-Schedulers, der verfügbare Ressourcen auf einem Cluster angibt. HINWEIS: Wenn vorzeitige YARN-Entfernung auf dem Cluster aktiviert ist, vergewissern Sie sich beim Hadoop-Administrator, dass vorzeitige Entfernung in der mit der Blaze-Engine verknüpften Warteschlange deaktiviert ist. |
Adresse der Blaze-Job-Überwachung | Der Hostname und die Portnummer für die Blaze-Job-Überwachung. Verwenden Sie das folgende Format: <hostname>:<port> Wobei
Geben Sie beispielsweise Folgendes ein: myhostname:9080 |
Blaze YARN-Knotenbezeichnung | Knotenbezeichnung, die den Knoten auf dem Hadoop-Cluster bestimmt, auf dem die Blaze-Engine läuft. Wenn Sie keine Knotenbezeichnung angeben, läuft die Blaze-Engine auf den Knoten in der Standardpartition. Wenn der Hadoop-Cluster logische Operatoren für Knotenbezeichnungen unterstützt, können Sie eine Liste von Knotenbezeichnungen angeben. Um die Knotenbezeichnungen aufzulisten, verwenden Sie die Operatoren && (UND), ||| (ODER) und ! (NICHT). HINWEIS: Sie können keine Knotenbezeichnungen für einen Cloudera CDH-Cluster verwenden. |
Erweiterte Eigenschaften | Liste der erweiterten Eigenschaften, die nur für die Blaze-Engine gelten. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez |
Eigenschaft | Beschreibung |
|---|---|
Spark-Staging-Verzeichnis | Der HDFS-Dateipfad des Verzeichnisses, das von der Spark-Engine zum Speichern temporärer Dateien für die Ausführung von Jobs verwendet wird. Der YARN-Benutzer, Datenintegrationsdienst-Benutzer und Zuordnungs-Identitätswechsel-Benutzer müssen über Schreibberechtigung für dieses Verzeichnis verfügen. Wenn Sie keinen Dateipfad angeben, werden die temporären Dateien standardmäßig in das Hadoop-Staging-Verzeichnis /tmp/SPARK_<Benutzername> geschrieben. Wenn Sie Sqoop-Jobs auf der Spark-Engine ausführen, erstellt der Datenintegrationsdienst ein Sqoop-Staging-Verzeichnis unter dem Spark-Staging-Verzeichnis, um temporäre Dateien zu speichern: <Spark-Staging-Verzeichnis>/sqoop_staging |
Verzeichnis des Spark-Ereignisprotokolls | Optional. Der HDFS-Dateipfad des Verzeichnisses, das die Spark-Engine zur Protokollierung von Ereignissen verwendet. |
Name der YARN-Warteschlange | Der von der Spark-Engine verwendete Name der YARN-Scheduler-Warteschlange, der verfügbare Ressourcen auf einem Cluster angibt. Bei diesem Namen wird zwischen Groß- und Kleinschreibung unterschieden. |
Erweiterte Eigenschaften | Liste der erweiterten Eigenschaften, die nur für die Spark-Engine gelten. Die erweiterten Eigenschaften enthalten eine Liste der Standardeigenschaften. Sie haben die Möglichkeit, Laufzeiteigenschaften für die Hadoop-Umgebung im Datenintegrationsdienst, in der Hadoop-Verbindung und im Mapping zu konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie z. B. eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie diese in der Hadoop-Verbindung oder im Mapping überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
HINWEIS: Wenn eine Zuordnung Hive-Server 2 zum Ausführen eines Jobs oder von Teilen eines Jobs verwendet, können Sie keine Eigenschaften überschreiben, die auf Cluster-Ebene in PreSQL- oder Post-SQL-Abfragen oder SQL-Überschreibungsanweisungen konfiguriert sind. Problemumgehung: Statt die Clusterkonfiguration in der Domäne zum Überschreiben von Cluster-Eigenschaften zu verwenden, übergeben Sie die Überschreibungseinstellungen an die JDBC-URL. Beispiel: beeline -u "jdbc:hive2://<domain host>:<port_number>/tpch_text_100" --hiveconf hive.execution.engine=tez |