Data Engineering Administrator Guide > Connections Reference > Databricks-Verbindungseigenschaften
  

Databricks-Verbindungseigenschaften

Verwenden Sie die Databricks-Verbindung zum Ausführen von Mappings auf einem Databricks-Cluster.
Eine Databricks-Verbindung ist eine Verbindung vom Typ „Cluster“. Sie können eine Databricks-Verbindung im Administrator Tool oder im Developer Tool verwalten. Sie können infacmd zum Erstellen einer Databricks-Verbindung verwenden. Konfigurieren Sie die Eigenschaften in der Databricks-Verbindung, um eine Kommunikation zwischen dem Datenintegrationsdienst und dem Databricks-Cluster zu ermöglichen.
In der folgenden Tabelle werden die allgemeinen Verbindungseigenschaften für die Databricks-Verbindung beschrieben:
Eigenschaft
Beschreibung
Name
Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten:~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? /
ID
Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname.
Beschreibung
Optional. Die Beschreibung der Verbindung. Die Beschreibung darf nicht mehr als 4.000 Zeichen enthalten.
Verbindungstyp
Wählen Sie Databricks.
Cluster-Konfiguration
Der Name der Clusterkonfiguration, der der Databricks-Umgebung zugeordnet ist.
Erforderlich, wenn Sie die Cloud-Bereitstellung nicht konfigurieren.
Cloud-Bereitstellungkonfiguration
Der Name der Cloud-Bereitstellungskonfiguration, die einer Databricks-Cloud-Plattform zugeordnet ist.
Erforderlich, wenn Sie die Clusterkonfiguration nicht konfigurieren.
Staging-Verzeichnis
Das Verzeichnis, in dem die Databricks-Spark-Engine Laufzeit-Staging-Dateien aufbewahrt.
Wenn Sie ein Verzeichnis angeben, das nicht vorhanden ist, erstellt es der Datenintegrationsdienst zur Laufzeit.
Wenn Sie keinen Verzeichnispfad angeben, werden die Laufzeit-Staging-Dateien in das Verzeichnis /<cluster staging directory>/DATABRICKS geschrieben.
Erweiterte Eigenschaften
Liste der erweiterten Eigenschaften, die nur für die Databricks-Umgebung gelten.
Sie können Laufzeiteigenschaften für die Databricks-Umgebung im Datenintegrationsdienst und in der Databricks-Verbindung konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie beispielsweise eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie sie in der Databricks-Verbindung überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten:
  1. 1Erweiterte Databricks-Verbindungseigenschaften
  2. 2Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts
HINWEIS: Bevor Sie sich nicht in der Drittanbieter- und Informatica-Dokumentation oder beim globalen Kundensupport von Informatica entsprechend informiert haben, rät Informatica von der Änderung dieser Eigenschaftswerte ab. Wenn Sie einen Wert ohne Kenntnis der Eigenschaft ändern, kann es zu Leistungseinbußen oder anderen unerwarteten Ergebnissen kommen.

Erweiterte Eigenschaften

Konfigurieren Sie die folgenden Eigenschaften in den Erweiterten Eigenschaften des Abschnitts der Databricks-Konfiguration:
infaspark.json.parser.mode
Gibt an, wie der Parser beschädigte JSON-Datensätze behandeln soll. Sie können den Wert auf einen der folgenden Modi festlegen:
infaspark.json.parser.multiLine
Gibt an, ob der Parser einen mehrzeiligen Datensatz in einer JSON-Datei lesen kann. Sie können den Wert auf TRUE oder FALSE festlegen. Standardwert ist FALSE. Gilt nur für nicht-native Distributionen, die Spark Version 2.2.x oder höher verwenden.
infaspark.flatfile.writer.nullValue
Wenn die Databricks-Spark-Engine in ein Ziel schreibt, konvertiert sie Nullwerte in leere Zeichenfolgen (" "). Beispiel: 12, AB,"",23p09udj.
Die Databricks-Spark-Engine kann die leeren Zeichenfolgen in Zeichenfolgenspalten schreiben. Aber wenn sie versucht, eine leere Zeichenfolge in eine Nicht-Zeichenfolgenspalte zu schreiben, schlägt das Mapping mit einem Typenkonflikt fehl.
Damit die Databricks-Spark-Engine die leeren Zeichenfolgen in Nullwerte zurück konvertieren und ins Ziel schreiben kann, konfigurieren Sie die Eigenschaft in der Databricks-Spark-Verbindung.
Setzen Sie die Eigenschaft auf TRUE.
infaspark.pythontx.exec
Erforderlich, um eine Python-Umwandlung in der Databricks Spark-Engine auszuführen. Legen Sie sie auf den Speicherort der ausführbaren Python-Binärdatei auf den Worker-Knoten im Hadoop-Cluster fest.
Wenn Sie den Cluster zur Laufzeit bereitstellen, legen Sie diese Eigenschaft in der Cloud-Bereitstellungkonfiguration von Databricks fest. Legen Sie sie andernfalls in der Databricks-Verbindung fest.
Legen Sie die Eigenschaft z. B. fest auf:
infaspark.pythontx.exec=/databricks/python3/bin/python3
infaspark.pythontx.executorEnv.PYTHONHOME
Erforderlich, um eine Python-Umwandlung in der Databricks Spark-Engine auszuführen. Legen Sie sie auf den Speicherort des Python-Installationsverzeichnisses auf den Worker-Knoten im Databricks-Cluster fest.
Wenn Sie den Cluster zur Laufzeit bereitstellen, legen Sie diese Eigenschaft in der Cloud-Bereitstellungkonfiguration von Databricks fest. Legen Sie sie andernfalls in der Databricks-Verbindung fest.
Legen Sie die Eigenschaft z. B. fest auf:
infaspark.pythontx.executorEnv.PYTHONHOME=/databricks/python3