Data Engineering Streaming

Cassandra ist eine Open-Source-NoSQL-Datenbank mit hoher Skalierbarkeit und Verfügbarkeit. Sie können Cassandra verwenden, wenn Sie große auf mehrere Rechenzentren verteilte Datenmengen speichern möchten oder wenn Ihre Anwendungen eine hohe Schreibzugriffsgeschwindigkeit erfordern.

Weitere Informationen finden Sie im Data Engineering Streaming 10.5-Benutzerhandbuch.

DataProc

Google Cloud-Speicherziel in Google Dataproc

Ab Version 10.5 können Sie Google Cloud Storage als Ziel in Streaming-Zuordnungen verwenden, die in einem Google Dataproc-Cluster ausgeführt werden.

Bei Google Dataproc handelt es sich um eine einfache Implementierung von Hadoop und Apache Spark auf der Google Cloud-Plattform. Bei der Integration von Informatica Data Engineering Streaming in Dataproc konfigurieren Sie eine lokale Informatica-Domäne, um Jobs im Dataproc-Cloudcluster auszuführen. Sie müssen den Dataproc-Cluster konfigurieren, bevor Sie ihn in Data Engineering Streaming integrieren.

Weitere Informationen finden Sie im Data Engineering Streaming 10.5-Benutzerhandbuch.

Google PubSub

Ab Version 10.5 können Sie Google PubSub als Quelle in Streaming-Zuordnungen verwenden.

Verwenden Sie eine Google PubSub-Quelle, um Nachrichten aus dem konfigurierten Google Cloud PubSub-Abonnement zu lesen.

Google PubSub ist ein asynchroner Messaging-Dienst, der Dienste, die Ereignisse erzeugen, von Diensten entkoppelt, die Ereignisse verarbeiten. Sie können Google PubSub als nachrichtenorientierte Middleware oder zur Aufnahme und Übermittlung von Ereignissen für Streaming-Analyse-Pipelines verwenden. Google PubSub bietet einen dauerhaften Nachrichtenspeicher und Nachrichtenübermittlung in Echtzeit bei hoher Verfügbarkeit und gleichbleibender, skalierbarer Leistung. Sie können Google PubSub-Server in allen verfügbaren Google Cloud-Regionen weltweit ausführen.

Weitere Informationen finden Sie im Data Engineering Streaming 10.5-Benutzerhandbuch.

Datentypen mit hoher Genauigkeit

Ab Version 10.5 können Sie den Hochpräzisionsmodus für Streaming-Zuordnungen aktivieren. Die Spark-Engine kann Dezimalwerte mit bis zu 38 Dezimalstellen verarbeiten.

Im Hochpräzisionsmodus unterstützt die Spark-Engine dezimale Datentypen mit einer Gesamtstellenzahl von bis zu 38 Stellen und einer maximalen Dezimalstellenzahl von 38. Die Dezimalstellenzahl muss kleiner als die Gesamtstellenzahl sein.

Weitere Informationen finden Sie im Data Engineering Streaming 10.5-Benutzerhandbuch.

Kudu

Ab Version 10.5 können Sie Kudu als Ziel in Streaming-Zuordnungen verwenden.

Kudu ist ein spaltenorientierter Speichermanager, der für die Apache Hadoop-Plattform entwickelt wurde. Sie können Kudu zum Speichern von Daten in Tabellen verwenden. Kudu verfügt über ein einfaches Datenmodell, bei dem die Kudu-Tabelle einen Primärschlüssel enthält, der aus einer oder mehreren Spalten mit jeweils einem definierten Typ besteht. Kudu-Tabellen verfügen über eine Spaltenstruktur, mit der Daten einfach vektorisiert und komprimiert werden können. Verwenden Sie Kudu, um Echtzeitanalysen für schnelle Daten durchzuführen. Sie können Kudu für die Suche, Aktualisierungen und Einfügungen von schnellen Daten verwenden.

Weitere Informationen finden Sie im Data Engineering Streaming 10.5-Benutzerhandbuch.

Python-Umwandlung in Databricks

Ab Version 10.5 können Sie Streaming-Zuordnungen in der Databricks-Umgebung auf der AWS- oder Azure-Plattform eine Python-Umwandlung hinzufügen.