Enterprise Data Lake

Aktive Regeln sind Mapplets, die mit dem Developer Tool entwickelt werden. Sie können aktive Regeln einsetzen, um komplexe Umwandlungen anzuwenden, beispielsweise Aggregator- und Datenqualitätsumwandlungen bei Arbeitsblättern zum Zweck des Abgleichs und der Konsolidierung.

Bei einer aktiven Regel werden alle Zeilen innerhalb eines Datensatzes als Eingabe verwendet. Sie können mehrere Arbeitsblätter zur Verwendung als Eingabe für die Regel auswählen. Die Anwendung fügt ein Arbeitsblatt hinzu, das die Regelausgabe für das Projekt enthält.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Löschung doppelter Zeilen

Ab Version 10.2.2 können Sie Zeilen, die Duplikatwerte enthalten, aus einem Arbeitsblatt löschen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Clusterung und Kategorisierung von Spaltendaten

Ab Version 10.2.2 können Sie ähnliche Werte in einer Spalte clustern und anschließend basierend auf Empfehlungen von Enterprise Data Lake kategorisieren. Zum Clustern ähnlicher Werte wird in der Anwendung ein phonetischer Algorithmus verwendet. Danach wird Ihnen vorgeschlagen, die weniger häufig vorkommenden Werte durch den am häufigsten vorkommenden Wert zu ersetzen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

CLAIRE-basierte Empfehlungen

Ab Version 10.2.2 wird in der Anwendung die eingebettete CLAIRE-Discovery-Engine für maschinelles Lernen verwendet, um bei der Datenvorbereitung Empfehlungen zu geben.

Auf der Projektseite blendet die Anwendung wechselnde und zusätzliche Empfehlungen ein, die basierend auf dem Datenverlauf sowie auf dokumentierten Primärschlüssel-Fremdschlüssel-Beziehungen von Upstream-Datenquellen abgeleitet werden.

Wenn Sie während der Datenvorbereitung in einem Arbeitsblatt eine Spalte auswählen, zeigt die Anwendung ausgehend vom Spaltendatentyp in der Spaltenübersicht Vorschläge zum Verbessern der Daten an.

Wenn Sie bei zwei Arbeitsblättern eine Join-Operation durchführen, greift die Anwendung auf Primärschlüssel-Fremdschlüssel-Beziehungen zurück, um bei geringen Überschneidungen von gewünschten Schlüsselpaaren inkompatible Stichproben anzuzeigen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Bedingte Aggregation

Ab Version 10.2.2 können Sie die AND- und OR-Logik nutzen, um mehrere Bedingungen auf IF-Berechnungen anzuwenden, die Sie beim Erstellen eines aggregierten Arbeitsblatts in einem Projekt einsetzen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Datenmaskierung

Ab Version 10.2.2 ist Enterprise Data Lake in Informatica Dynamic Data Masking integriert. Das Datensicherheitsprodukt ermöglicht es, sensible Daten in Datenobjekten zu maskieren.

Zum Aktivieren der Datenmaskierung in Enterprise Data Lake konfigurieren Sie den Dynamic Data Masking-Server so, dass Maskierungsregeln auf Datenobjekte im Datensee angewendet werden. Konfigurieren Sie außerdem die Informatica-Domäne, um Enterprise Data Lake den Verbindungsaufbau zum Dynamic Data Masking-Server zu ermöglichen.

Dynamic Data Masking fängt Anfragen ab, die von Enterprise Data Lake an den Datensee gesendet werden, und wendet die Maskierungsregeln auf Spalten im angeforderten Objekt an. Wenn Benutzer von Enterprise Data Lake Vorgänge an Spalten betrachten oder ausführen, die maskierte Daten enthalten, werden die betreffenden Daten ausgehend von den angewendeten Maskierungsregeln ganz oder teilweise verschleiert.

Weitere Informationen finden Sie im Kapitel zum Maskieren sensibler Daten im Informatica 10.2.2 Enterprise Data Lake-Administratorhandbuch.

Lokalisierung

Ab Version 10.2.2 unterstützt die Benutzeroberfläche die japanische Sprache. Außerdem haben Sie die Möglichkeit, in Projektnamen und -beschreibungen nichtlateinische Zeichen zu verwenden.

Partitionierte Quellen und Ziele

Ab Version 10.2.2 kann Enterprise Data Lake bei Operationen zum Importieren, Veröffentlichen und Kopieren Daten aus partitionierten Quellen lesen. Die Anwendung kann bei Vorgängen zum Importieren, Veröffentlichen, Kopieren und Hochladen außerdem Daten an partitionierte Ziele im Datensee anhängen.

Hinzufügung von Kommentaren zu Rezeptschritten

Ab Version 10.2.2 können Sie einem Rezeptschritt einen Kommentar hinzufügen. Verwenden Sie Kommentare, um die Zusammenarbeit zu verbessern und Detailangaben zum Erfüllen von Audit-Auflagen zu machen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Speicherung eines Rezepts als Mapping

Ab Version 10.2.2 können Sie ein Rezept als Mapping speichern, statt das Rezept zu veröffentlichen und eine neue Ausgabetabelle zu erstellen.

Sie können das Mapping wahlweise in dem Modellrepository speichern, das mit dem Enterprise Data Lake Service verbunden ist, oder es als XML-Datei speichern. Entwickler haben die Möglichkeit, das Mapping mit dem Developer Tool zu überprüfen und zu verändern; anschließend können sie das Mapping je nach Verfügbarkeit der Systemressourcen gegebenenfalls ausführen.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Amazon S3, ADLS, WASB und MapR-FS als Datenquellen

Ab Version 10.2.2 können Sie Daten in Dateien vorbereiten, die in den folgenden Datenquellen gespeichert sind:

Für jede Datenquelle, die vorzubereitende Daten enthält, müssen Sie eine Ressource in Enterprise Data Catalog erstellen. Eine Ressource ist ein Repository-Objekt, das eine externe Datenquelle oder ein Metadaten-Repository darstellt. Mit einer Ressource verknüpfte Scanner extrahieren Metadaten aus der Ressource und speichern die Metadaten in Enterprise Data Catalog.

Weitere Informationen zur Erstellung von Ressourcen in Enterprise Data Catalog finden Sie im Kapitel zum Ressourcenmanagement im Informatica 10.2.2 Catalog Administrator-Handbuch.

Statistische Funktionen

Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden statistischen Funktionen auf Spalten in einem Arbeitsblatt anwenden:

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Funktionen für Datum und Uhrzeit

Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden Funktionen für Datum und Uhrzeit auf Spalten in einem Arbeitsblatt anwenden:

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Mathematische Funktionen

Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden mathematischen Funktionen auf Spalten anwenden:

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Textfunktionen

Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden Textfunktionen auf Spalten anwenden:

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Fensterfunktionen

Ab Version 10.2.2 können Sie Fensterfunktionen verwenden, um Operationen für Gruppen von Zeilen innerhalb eines Arbeitsblatts auszuführen. Die Gruppe der Zeilen, auf die eine Funktion wirkt, wird als Fenster bezeichnet. Für diese Gruppe legen Sie einen Partitionsschlüssel, einen Sortierschlüssel sowie optionale Offsets fest. Eine Fensterfunktion berechnet einen Rückgabewert für jede Eingabezeile innerhalb des Fensterkontexts.

Mit Fensterfunktionen können Sie die folgenden Aufgaben ausführen:

Sie die Möglichkeit, mehrere Fensterfunktionen auf ein Arbeitsblatt anzuwenden. Beispielsweise können Sie zunächst eine Funktion anwenden, um die Summe der Werte für jede Zeile nach der aktuellen Zeile innerhalb eines Fensters zu berechnen, und danach eine andere Funktion anwenden, um den Durchschnitt dieser Werte zu berechnen.

Enterprise Data Lake fügt zu jeder Funktion, die Sie auf das Arbeitsblatt anwenden, eine Spalte mit den jeweiligen Ergebnissen hinzu.

Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.

Audit-Ereignisse bereinigen

Ab Version 10.2.2 können Sie den Befehl „infacmd edl purgeevents“ ausführen, um Benutzeraktivitätsereignisse aus der Datenbank für den Audit-Verlauf zu löschen. Optional können Sie den Befehl ausführen, um Projektverlaufsereignisse aus der Datenbank zu löschen.

Spark-Ausführungs-Engine

Ab Version 10.2.2 nutzt Enterprise Data Lake die Spark-Engine für Aufgaben mit hoher Ressourcenauslastung, beispielsweise Objektveröffentlichung, sowie zur Ausführung aktiver Regel-Mapplets, bei denen die Python-Umwandlung verwendet wird. Durch Einsatz der Spark-Engine für Aufgaben mit hoher Ressourcenauslastung wird eine höhere Leistung erreicht; zudem ist damit eine Bereitstellung von Enterprise Data Lake auf Amazon Elastic MapReduce (EMR) möglich, sodass die automatische Skalierung genutzt werden kann.

Enterprise Data Lake

Anwendung aktiver Regeln

Löschung doppelter Zeilen

Clusterung und Kategorisierung von Spaltendaten

CLAIRE-basierte Empfehlungen

Bedingte Aggregation

Datenmaskierung

Lokalisierung

Partitionierte Quellen und Ziele

Hinzufügung von Kommentaren zu Rezeptschritten

Speicherung eines Rezepts als Mapping

Amazon S3, ADLS, WASB und MapR-FS als Datenquellen

Statistische Funktionen

Funktionen für Datum und Uhrzeit

Mathematische Funktionen

Textfunktionen

Fensterfunktionen

Audit-Ereignisse bereinigen

Spark-Ausführungs-Engine