Hive-Verbindungseigenschaften

Eigenschaft	Beschreibung
Name	Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten: ~ ` ! $ % ^ & * ( ) - + = { [ } ] \| \ : ; " ' < , > . ? /
ID	Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname.
Beschreibung	Die Beschreibung der Verbindung. Die Beschreibung darf nicht mehr als 4000 Zeichen enthalten.
Speicherort	Die Domäne, in der Sie die Verbindung erstellen möchten. Nicht gültig für das Analyst Tool.
Typ	Der Verbindungstyp. Wählen Sie „Hive“ aus.
LDAP-Benutzername	LDAP-Benutzername, den der Datenintegrationsdienst zum Ausführen von Zuordnungen in einem Hadoop-Cluster verwendet. Der Benutzername richtet sich nach der JDBC-Verbindungszeichenfolge, die Sie in der Metadaten- oder Datenzugriffs-Verbindungszeichenfolge für die native Umgebung angegeben haben. Wenn der Hadoop-Cluster Kerberos-Authentifizierung verwendet, müssen der Prinzipalname der JDBC-Verbindungszeichenfolge und der Benutzername identisch sein. Andernfalls hängt der Benutzername vom Verhalten des JDBC-Treibers ab. Mit dem Hive-JDBC-Treiber können Sie einen Benutzernamen auf viele Arten angeben. Der Benutzername kann zudem Teil der JDBC-URL werden. Wenn der Hadoop-Cluster keine Kerberos-Authentifizierung verwendet, hängt der Benutzername vom Verhalten des JDBC-Treibers ab. Wenn Sie keinen Benutzernamen eingeben, authentifiziert der Hadoop-Cluster Jobs basierend auf den folgenden Kriterien: - Der Hadoop-Cluster verwendet keine Kerberos-Authentifizierung. Er authentifiziert Jobs basierend auf dem Benutzernamen des Betriebssystemprofils des Computers, auf dem der Datenintegrationsdienst ausgeführt wird. - Der Hadoop-Cluster verwendet Kerberos-Authentifizierung. Er authentifiziert Jobs basierend auf dem SPN des Datenintegrationsdiensts. Der LDAP-Benutzername wird ignoriert.
Passwort	Passwort für den LDAP-Benutzernamen.
Umgebungs-SQL	SQL-Befehle zum Einrichten der Hadoop-Umgebung. Im nativen Umgebungstyp führt der Datenintegrationsdienst die Umgebungs-SQL jedes Mal aus, wenn er eine Verbindung zu einem Hive-Metastore herstellt. Wenn Sie die Hive-Verbindung zum Ausführen von Profilen in einem Hadoop-Cluster verwenden, führt der Datenintegrationsdienst die Umgebungs-SQL am Anfang jeder Hive-Sitzung aus. Die folgenden Regeln und Richtlinien gelten für die Verwendung von Umgebungs-SQL in beiden Verbindungsmodi: - Verwenden Sie die Umgebungs-SQL, um Hive-Abfragen anzugeben. - Verwenden Sie die Umgebungs-SQL, um den Klassenpfad für benutzerdefinierte Hive-Funktionen einzustellen, und verwenden Sie dann Umgebungs-SQL oder PreSQL, um die benutzerdefinierten Hive-Funktionen anzugeben. Sie können PreSQL nicht in den Datenobjekteigenschaften zur Angabe des Klassenpfads verwenden. Wenn Sie benutzerdefinierte Hive-Funktionen verwenden, müssen Sie die JAR-Dateien in das folgende Verzeichnis kopieren: <Informatica-Installationsverzeichnis>/services/shared/hadoop/<Name der Hadoop-Distribution>/extras/hive-auxjars - Sie können Umgebungs-SQL zum Definieren von Hadoop- oder Hive-Parametern verwenden, die Sie in den PreSQL-Befehlen oder in benutzerspezifischen Abfragen nutzen möchten. - Wenn Sie mehrere Werte für die Eigenschaft „Umgebungs-SQL“ verwenden, stellen Sie sicher, dass sich zwischen den Werten keine Leerzeichen befinden.
SQL-Kennungszeichen	Der Zeichentyp, der zur Kennzeichnung von Sonderzeichen und reservierten SQL-Schlüsselwörtern, wie WHERE, verwendet wird. Der Datenintegrationsdienst schließt mit dem ausgewählten Zeichen Sonderzeichen und reservierte SQL-Schlüsselwörter ein. Außerdem nutzt der Datenintegrationsdienst dieses Zeichen für die Eigenschaft Unterstützte Kennungen für gemischte Groß-/Kleinschreibung.

Eigenschaft	Beschreibung
JDBC-Treiberklassenname	Name der Hive JDBC-Treiberklasse. Wenn Sie diese Option leer lassen, verwendet das Developer Tool den standardmäßigen Apache Hive JDBC-Treiber, der mit der Verteilung ausgeliefert wird. Wenn der standardmäßige Apache Hive JDBC-Treiber nicht Ihren Anforderungen entspricht, können Sie den Apache Hive JDBC-Treiber mit einem Drittanbieter-Hive JDBC-Treiber überschreiben, indem Sie den Treiberklassennamen angeben.
Metadaten-Verbindungszeichenfolge	Die JDBC-Verbindungs-URI für den Zugriff auf die Metadaten des Hadoop-Servers. Sie können PowerExchange for Hive zum Kommunizieren mit einem HiveServer-Dienst oder mit einem HiveServer2-Dienst verwenden. Zum Herstellen einer Verbindung zu HiveServer geben Sie den Verbindungsstring im folgenden Format ein: jdbc:hive2://<hostname>:<port>/<db> Wobei - <hostname> der Name bzw. die IP-Adresse des Computers ist, auf dem HiveServer2 ausgeführt wird. - <port> die Nummer des Ports ist, den der HiveServer2 abhört. - <db> der Name der Datenbank ist, zu der Sie eine Verbindung herstellen möchten. Wenn Sie den Datenbanknamen nicht zur Verfügung stellen, verwendet der Datenintegrationsdienst die standardmäßigen Datenbank-Details. Zum Herstellen einer Verbindung zu HiveServer2 verwenden Sie das Verbindungsstringformat, das Apache Hive für diese bestimmte Hadoop-Distribution implementiert. Weitere Informationen über Apache Hive-Verbindungsstringformate finden Sie in der Apache Hive-Dokumentation. Für den Benutzeridentitätswechsel müssen Sie hive.server2.proxy.user=<xyz> zum JDBC-Verbindungs-URI hinzufügen. Wenn Sie den Benutzeridentitätswechsel nicht konfigurieren, werden die Anmeldeinformationen des aktuellen Benutzers verwendet, um eine Verbindung zum HiveServer2 herzustellen. Wenn der Hadoop-Cluster die SSL- oder TLS-Authentifizierung verwendet, müssen Sie dem JDBC-Verbindungs-URI ssl=true hinzufügen. Beispiel: jdbc:hive2://<hostname>:<port>/<db>;ssl=true Wenn Sie für die SSL- oder TLS-Authentifizierung ein selbstsigniertes Zertifikat verwenden, vergewissern Sie sich, dass die Zertifikatsdatei auf dem Client-Computer und dem Datenintegrationsdienst-Computer verfügbar ist. Weitere Informationen hierzu finden Sie im Data Engineering Integration-Handbuch.
Hive-JDBC-Server umgehen	JDBC-Treibermodus. Aktivieren Sie das Kontrollkästchen, um den eingebetteten JDBC-Treibermodus zu verwenden. Zur Verwendung des eingebetteten JDBC-Modus führen Sie folgende Aufgaben durch: - Stellen Sie sicher, dass Hive-Client und Informatica-Dienste auf demselben Computer installiert sind. - Konfigurieren Sie die Eigenschaften der Hive-Verbindung, um Zuordnungen in einem Hadoop-Cluster auszuführen. Wenn Sie den nicht eingebetteten Modus wählen, müssen Sie den Verbindungszeichenfolge für Datenzugriff konfigurieren. Informatica empfiehlt die Verwendung des eingebetteten JDBC-Modus.
Differenzierte Autorisierung	Wenn Sie die Option zum Berücksichtigen der differenzierten Autorisierung in einer Hive-Quelle auswählen, wird beim Mapping Folgendes berücksichtigt: - Einschränkungen auf Zeilen- und Spaltenebene. Anwendung auf Hadoop-Cluster, in denen die Sicherheitsmodi „Sentry“ oder „Ranger“ aktiviert sind. - Datenmaskierungsregeln. Anwendung auf festgelegte Maskierungsregeln bei Spalten, die sensible Daten per Dynamic Data Masking enthalten. Wenn Sie die Option nicht auswählen, ignorieren die Blaze- und die Spark-Engine die Einschränkungen und Maskierungsregeln, sodass die Ergebnisse eingeschränkte oder sensible Daten enthalten.
Verbindungszeichenfolge für Datenzugriff	Die Verbindungszeichenfolge zum Zugriff auf Daten aus dem Hadoop-Datenspeicher. Zum Herstellen einer Verbindung zu HiveServer geben Sie den Verbindungsstring des nicht eingebetteten JDBC-Modus im folgenden Format ein: jdbc:hive2://<hostname>:<port>/<db> Wobei - <hostname> der Name bzw. die IP-Adresse des Computers ist, auf dem HiveServer2 ausgeführt wird. - <port> die Nummer des Ports ist, den der HiveServer2 abhört. - <db> die Datenbank ist, zu der Sie eine Verbindung herstellen möchten. Wenn Sie den Datenbanknamen nicht zur Verfügung stellen, verwendet der Datenintegrationsdienst die standardmäßigen Datenbank-Details. Zum Herstellen einer Verbindung zu HiveServer2 verwenden Sie das Verbindungsstringformat, das Apache Hive für die spezifische Hadoop-Verteilung implementiert. Weitere Informationen über Apache Hive-Verbindungsstringformate finden Sie in der Apache Hive-Dokumentation. Für den Benutzeridentitätswechsel müssen Sie hive.server2.proxy.user=<xyz> zum JDBC-Verbindungs-URI hinzufügen. Wenn Sie den Benutzeridentitätswechsel nicht konfigurieren, werden die Anmeldeinformationen des aktuellen Benutzers verwendet, um eine Verbindung zum HiveServer2 herzustellen. Wenn der Hadoop-Cluster die SSL- oder TLS-Authentifizierung verwendet, müssen Sie dem JDBC-Verbindungs-URI ssl=true hinzufügen. Beispiel: jdbc:hive2://<hostname>:<port>/<db>;ssl=true Wenn Sie für die SSL- oder TLS-Authentifizierung ein selbstsigniertes Zertifikat verwenden, vergewissern Sie sich, dass die Zertifikatsdatei auf dem Client-Computer und dem Datenintegrationsdienst-Computer verfügbar ist. Weitere Informationen hierzu finden Sie im Data Engineering Integration-Handbuch.
Hive-Staging-Verzeichnis auf HDFS	HDFS-Verzeichnis für Hive-Staging-Tabellen. Sie müssen dem Hadoop-Identitätswechselbenutzer und den Mapping-Identitätswechselbenutzern die Ausführungsberechtigung gewähren. Diese Option ist anwendbar und erforderlich, wenn Sie Daten in ein Hive-Ziel in der nativen Umgebung schreiben.
Name der Hive-Staging-Datenbank	Namespace für Hive-Staging-Tabellen. Der Name der Hive-Staging-Datenbank wird automatisch anhand der Verbindungszeichenfolge für den Datenzugriff aktualisiert. Wenn Sie den Standardnamen überschreiben möchten, müssen Sie den Namen der Hive-Staging-Datenbank in der Hive-Verbindung konfigurieren. Diese Option ist relevant, wenn Sie Mappings in der nativen Umgebung ausführen, um Daten in ein Hive-Ziel zu schreiben. Wenn Sie Mappings auf der Blaze- oder Spark-Engine ausführen, ist es nicht erforderlich, den Namen der Hive-Staging-Datenbank in der Hive-Verbindung zu konfigurieren. Der Datenintegrationsdienst verwendet den Wert, den Sie in der Hadoop-Verbindung konfigurieren.

Hive-Verbindungseigenschaften

Eigenschaften für den Zugriff auf Hive als Quelle oder Ziel