Data Engineering Streaming
In diesem Abschnitt werden neue Data Engineering Streaming-Funktionen in Version 10.4.1 erläutert.
FileName-Port für ADLS Gen2
Ab Version 10.4.1 wird beim Erstellen eines Datenobjekt-Schreibvorgangs für ADLS Gen2 der FileName-Port automatisch angezeigt.
Zur Laufzeit erstellt der Datenintegrationsdienst getrennte Verzeichnisse für jeden Wert im FileName-Port und fügt die Zieldateien innerhalb der Verzeichnisse hinzu. Über den Port für den Dateinamen im ADLS Gen2-Ziel können Sie CDC-Daten aus PWX CDC Publisher erfassen.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
CDC-Daten aus mehreren Kafka-Themen erfassen
Ab Version 10.4.1 können Sie CDC-Daten aus PWX CDC Publisher aus mehreren Kafka-Themen auf Data Engineering-Systemen in einer oder mehreren Zuordnungen erfassen.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
JDBC V2-Lookup-Umwandlung
Ab Version 10.4.1 können Sie Daten in einer JDBC V2-Tabelle mithilfe eines Lesevorgangs für JDBC-Datenobjekte suchen.
Sie können den Lesevorgang für ein JDBC V2-Datenobjekt als Lookup in einer Zuordnung hinzufügen. Anschließend können Sie eine Lookup-Bedingung konfigurieren, um Daten in der JDBC V2-Tabelle zu suchen. Diese Zuordnung können Sie in einer Databricks-Engine ausführen.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
Parquet-Datenformat für komplexe Ziele
Ab Version 10.4.1 können Sie für komplexe Ziele das Parquet-Datenformat verwenden.
Sie können das Parquet-Datenformat für komplexe Ziele wie HDFS, ADLS Gen2 und Amazon S3 in den Streaming-Zuordnungen verwenden.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
Rollover-Parameter in Amazon S3- und ADLS Gen2-Zielen
Ab Version 10.4.1 können Sie unterschiedliche Rollover-Parameter für Amazon S3- und ADLS Gen2-Ziele verwenden, um die Rollover-Zeit oder -Größe für jedes Ziel festzulegen.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
Quellen und Ziele in Databricks
Ab Version 10.4.1 können Sie Kafka und Confluent Kafka in Streaming-Zuordnungen in einer Databricks-Umgebung als Quellen und Ziele verwenden.
Sie können die Streaming-Zuordnungen in der Databricks-Umgebung sowohl in AWS Cloud-Ökosystemen als auch in Microsoft Azure Cloud Services ausführen.
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.
Streaming-Zuordnungen in AWS Databricks
Ab Version 10.4.1 können Sie Streaming-Zuordnungen im AWS Databricks-Dienst in AWS Cloud-Ökosystemen ausführen.
Sie können AWS Databricks nutzen, um Zuordnungen mit den folgenden Funktionen auszuführen:
Quellen und Ziele
Sie können Streaming-Zuordnungen mit den folgenden Quellen und Zielen innerhalb der Databricks-Umgebung ausführen:
- •Amazon S3
- •Kinesis Streams.
- •Kinesis Firehose.
Umwandlungen
Sie können einer Databricks-Streaming-Zuordnung in AWS die folgenden Umwandlungen hinzufügen:
- •Aggregator
- •Ausdruck
- •Filter
- •Joiner
- •Normalisierer
- •Rang
- •Router
- •Union
- •Fenster
Datentypen
AWS Databricks unterstützt die gleichen Datentypen wie Azure Databricks.
Folgende Datentypen werden unterstützt:
- •Array
- •Bigint
- •Datum/Uhrzeit
- •Dezimal
- •Doppelt
- •Ganzzahl
- •Map
- •Struct
- •Text
- •Zeichenfolge
Weitere Informationen finden Sie im Data Engineering Streaming 10.4.1-Benutzerhandbuch.