Databricks-Verbindungseigenschaften
Verwenden Sie die Databricks-Verbindung zum Ausführen von Mappings auf einem Databricks-Cluster.
Eine Databricks-Verbindung ist eine Verbindung vom Typ „Cluster“. Sie können eine Databricks-Verbindung im Administrator Tool oder im Developer Tool verwalten. Sie können infacmd zum Erstellen einer Databricks-Verbindung verwenden. Konfigurieren Sie die Eigenschaften in der Databricks-Verbindung, um eine Kommunikation zwischen dem Datenintegrationsdienst und dem Databricks-Cluster zu ermöglichen.
In der folgenden Tabelle werden die allgemeinen Verbindungseigenschaften für die Databricks-Verbindung beschrieben:
Eigenschaft | Beschreibung |
|---|
Name | Der Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung ändern. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten:~ ` ! $ % ^ & * ( ) - + = { [ } ] | \ : ; " ' < , > . ? / |
ID | Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname. |
Beschreibung | Optional. Die Beschreibung der Verbindung. Die Beschreibung darf nicht mehr als 4.000 Zeichen enthalten. |
Verbindungstyp | Wählen Sie Databricks. |
Cluster-Konfiguration | Der Name der Clusterkonfiguration, der der Databricks-Umgebung zugeordnet ist. Erforderlich, wenn Sie die Cloud-Bereitstellung nicht konfigurieren. |
Cloud-Bereitstellungkonfiguration | Der Name der Cloud-Bereitstellungskonfiguration, die einer Databricks-Cloud-Plattform zugeordnet ist. Erforderlich, wenn Sie die Clusterkonfiguration nicht konfigurieren. |
Staging-Verzeichnis | Das Verzeichnis, in dem die Databricks-Spark-Engine Laufzeit-Staging-Dateien aufbewahrt. Wenn Sie ein Verzeichnis angeben, das nicht vorhanden ist, erstellt es der Datenintegrationsdienst zur Laufzeit. Wenn Sie keinen Verzeichnispfad angeben, werden die Laufzeit-Staging-Dateien in das Verzeichnis /<cluster staging directory>/DATABRICKS geschrieben. |
Erweiterte Eigenschaften | Liste der erweiterten Eigenschaften, die nur für die Databricks-Umgebung gelten. Sie können Laufzeiteigenschaften für die Databricks-Umgebung im Datenintegrationsdienst und in der Databricks-Verbindung konfigurieren. Eine auf einer hohen Ebene konfigurierte Eigenschaft können Sie durch Festlegen des Werts auf einer unteren Ebene überschreiben. Wenn Sie beispielsweise eine Eigenschaft in den benutzerdefinierten Eigenschaften des Datenintegrationsdiensts konfigurieren, können Sie sie in der Databricks-Verbindung überschreiben. Der Datenintegrationsdienst verarbeitet Überschreibungen von Eigenschaften auf der Grundlage der folgenden Prioritäten: - 1Erweiterte Databricks-Verbindungseigenschaften
- 2Benutzerdefinierte Eigenschaften des Datenintegrationsdiensts
HINWEIS: Bevor Sie sich nicht in der Drittanbieter- und Informatica-Dokumentation oder beim globalen Kundensupport von Informatica entsprechend informiert haben, rät Informatica von der Änderung dieser Eigenschaftswerte ab. Wenn Sie einen Wert ohne Kenntnis der Eigenschaft ändern, kann es zu Leistungseinbußen oder anderen unerwarteten Ergebnissen kommen. |
Erweiterte Eigenschaften
Konfigurieren Sie die folgenden Eigenschaften in den Erweiterten Eigenschaften des Abschnitts der Databricks-Konfiguration:
- infaspark.json.parser.mode
Gibt an, wie der Parser beschädigte JSON-Datensätze behandeln soll. Sie können den Wert auf einen der folgenden Modi festlegen:
- - DROPMALFORMED. Der Parser ignoriert alle beschädigten Datensätze. Standardmodus.
- - PERMISSIVE. Der Parser akzeptiert die Nicht-Standard-Felder als Nullen in beschädigten Datensätzen.
- - FAILFAST. Der Parser generiert eine Ausnahme, wenn er einen beschädigten Datensatz entdeckt, und die Spark-Anwendung wird beendet.
- infaspark.json.parser.multiLine
Gibt an, ob der Parser einen mehrzeiligen Datensatz in einer JSON-Datei lesen kann. Sie können den Wert auf TRUE oder FALSE festlegen. Standardwert ist FALSE. Gilt nur für nicht-native Distributionen, die Spark Version 2.2.x oder höher verwenden.
- infaspark.flatfile.writer.nullValue
- Wenn die Databricks-Spark-Engine in ein Ziel schreibt, konvertiert sie Nullwerte in leere Zeichenfolgen (" "). Beispiel: 12, AB,"",23p09udj.
- Die Databricks-Spark-Engine kann die leeren Zeichenfolgen in Zeichenfolgenspalten schreiben. Aber wenn sie versucht, eine leere Zeichenfolge in eine Nicht-Zeichenfolgenspalte zu schreiben, schlägt das Mapping mit einem Typenkonflikt fehl.
Damit die Databricks-Spark-Engine die leeren Zeichenfolgen in Nullwerte zurück konvertieren und ins Ziel schreiben kann, konfigurieren Sie die Eigenschaft in der Databricks-Spark-Verbindung.
Setzen Sie die Eigenschaft auf TRUE.
- infaspark.pythontx.exec
- Erforderlich, um eine Python-Umwandlung in der Databricks Spark-Engine auszuführen. Legen Sie sie auf den Speicherort der ausführbaren Python-Binärdatei auf den Worker-Knoten im Hadoop-Cluster fest.
Wenn Sie den Cluster zur Laufzeit bereitstellen, legen Sie diese Eigenschaft in der Cloud-Bereitstellungkonfiguration von Databricks fest. Legen Sie sie andernfalls in der Databricks-Verbindung fest.
Legen Sie die Eigenschaft z. B. fest auf:
infaspark.pythontx.exec=/databricks/python3/bin/python3
- infaspark.pythontx.executorEnv.PYTHONHOME
Erforderlich, um eine Python-Umwandlung in der Databricks Spark-Engine auszuführen. Legen Sie sie auf den Speicherort des Python-Installationsverzeichnisses auf den Worker-Knoten im Databricks-Cluster fest.
Wenn Sie den Cluster zur Laufzeit bereitstellen, legen Sie diese Eigenschaft in der Cloud-Bereitstellungkonfiguration von Databricks fest. Legen Sie sie andernfalls in der Databricks-Verbindung fest.
Legen Sie die Eigenschaft z. B. fest auf:
infaspark.pythontx.executorEnv.PYTHONHOME=/databricks/python3