Enterprise Data Lake
In diesem Abschnitt werden neue Enterprise Data Lake-Funktionen in Version 10.2.2 erläutert.
Anwendung aktiver Regeln
Ab Version 10.2.2 können Sie aktive Regeln in Projekten verwenden.
Aktive Regeln sind Mapplets, die mit dem Developer Tool entwickelt werden. Sie können aktive Regeln einsetzen, um komplexe Umwandlungen anzuwenden, beispielsweise Aggregator- und Datenqualitätsumwandlungen bei Arbeitsblättern zum Zweck des Abgleichs und der Konsolidierung.
Bei einer aktiven Regel werden alle Zeilen innerhalb eines Datensatzes als Eingabe verwendet. Sie können mehrere Arbeitsblätter zur Verwendung als Eingabe für die Regel auswählen. Die Anwendung fügt ein Arbeitsblatt hinzu, das die Regelausgabe für das Projekt enthält.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Löschung doppelter Zeilen
Ab Version 10.2.2 können Sie Zeilen, die Duplikatwerte enthalten, aus einem Arbeitsblatt löschen.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Clusterung und Kategorisierung von Spaltendaten
Ab Version 10.2.2 können Sie ähnliche Werte in einer Spalte clustern und anschließend basierend auf Empfehlungen von Enterprise Data Lake kategorisieren. Zum Clustern ähnlicher Werte wird in der Anwendung ein phonetischer Algorithmus verwendet. Danach wird Ihnen vorgeschlagen, die weniger häufig vorkommenden Werte durch den am häufigsten vorkommenden Wert zu ersetzen.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
CLAIRE-basierte Empfehlungen
Ab Version 10.2.2 wird in der Anwendung die eingebettete CLAIRE-Discovery-Engine für maschinelles Lernen verwendet, um bei der Datenvorbereitung Empfehlungen zu geben.
Auf der Projektseite blendet die Anwendung wechselnde und zusätzliche Empfehlungen ein, die basierend auf dem Datenverlauf sowie auf dokumentierten Primärschlüssel-Fremdschlüssel-Beziehungen von Upstream-Datenquellen abgeleitet werden.
Wenn Sie während der Datenvorbereitung in einem Arbeitsblatt eine Spalte auswählen, zeigt die Anwendung ausgehend vom Spaltendatentyp in der Spaltenübersicht Vorschläge zum Verbessern der Daten an.
Wenn Sie bei zwei Arbeitsblättern eine Join-Operation durchführen, greift die Anwendung auf Primärschlüssel-Fremdschlüssel-Beziehungen zurück, um bei geringen Überschneidungen von gewünschten Schlüsselpaaren inkompatible Stichproben anzuzeigen.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Bedingte Aggregation
Ab Version 10.2.2 können Sie die AND- und OR-Logik nutzen, um mehrere Bedingungen auf IF-Berechnungen anzuwenden, die Sie beim Erstellen eines aggregierten Arbeitsblatts in einem Projekt einsetzen.
- •Wenn Sie mehr als eine Spalte in eine Bedingung einbeziehen möchten, verwenden Sie AND in Kombination mit allen Operatoren.
- •Wenn Sie mehr als einen Wert innerhalb einer Spalte in eine Bedingung einbeziehen möchten, verwenden Sie OR in Kombination mit den Operatoren IS, IS NOT und IS BETWEEN.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Datenmaskierung
Ab Version 10.2.2 ist Enterprise Data Lake in Informatica Dynamic Data Masking integriert. Das Datensicherheitsprodukt ermöglicht es, sensible Daten in Datenobjekten zu maskieren.
Zum Aktivieren der Datenmaskierung in Enterprise Data Lake konfigurieren Sie den Dynamic Data Masking-Server so, dass Maskierungsregeln auf Datenobjekte im Datensee angewendet werden. Konfigurieren Sie außerdem die Informatica-Domäne, um Enterprise Data Lake den Verbindungsaufbau zum Dynamic Data Masking-Server zu ermöglichen.
Dynamic Data Masking fängt Anfragen ab, die von Enterprise Data Lake an den Datensee gesendet werden, und wendet die Maskierungsregeln auf Spalten im angeforderten Objekt an. Wenn Benutzer von Enterprise Data Lake Vorgänge an Spalten betrachten oder ausführen, die maskierte Daten enthalten, werden die betreffenden Daten ausgehend von den angewendeten Maskierungsregeln ganz oder teilweise verschleiert.
Weitere Informationen finden Sie im Kapitel zum Maskieren sensibler Daten im Informatica 10.2.2 Enterprise Data Lake-Administratorhandbuch.
Lokalisierung
Ab Version 10.2.2 unterstützt die Benutzeroberfläche die japanische Sprache. Außerdem haben Sie die Möglichkeit, in Projektnamen und -beschreibungen nichtlateinische Zeichen zu verwenden.
Partitionierte Quellen und Ziele
Ab Version 10.2.2 kann Enterprise Data Lake bei Operationen zum Importieren, Veröffentlichen und Kopieren Daten aus partitionierten Quellen lesen. Die Anwendung kann bei Vorgängen zum Importieren, Veröffentlichen, Kopieren und Hochladen außerdem Daten an partitionierte Ziele im Datensee anhängen.
Hinzufügung von Kommentaren zu Rezeptschritten
Ab Version 10.2.2 können Sie einem Rezeptschritt einen Kommentar hinzufügen. Verwenden Sie Kommentare, um die Zusammenarbeit zu verbessern und Detailangaben zum Erfüllen von Audit-Auflagen zu machen.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Speicherung eines Rezepts als Mapping
Ab Version 10.2.2 können Sie ein Rezept als Mapping speichern, statt das Rezept zu veröffentlichen und eine neue Ausgabetabelle zu erstellen.
Sie können das Mapping wahlweise in dem Modellrepository speichern, das mit dem Enterprise Data Lake Service verbunden ist, oder es als XML-Datei speichern. Entwickler haben die Möglichkeit, das Mapping mit dem Developer Tool zu überprüfen und zu verändern; anschließend können sie das Mapping je nach Verfügbarkeit der Systemressourcen gegebenenfalls ausführen.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Amazon S3, ADLS, WASB und MapR-FS als Datenquellen
Ab Version 10.2.2 können Sie Daten in Dateien vorbereiten, die in den folgenden Datenquellen gespeichert sind:
- •Amazon S3
- •MapR-FS
- •Microsoft Azure Data Lake Storage
- •Windows Azure Storage Blob
Für jede Datenquelle, die vorzubereitende Daten enthält, müssen Sie eine Ressource in Enterprise Data Catalog erstellen. Eine Ressource ist ein Repository-Objekt, das eine externe Datenquelle oder ein Metadaten-Repository darstellt. Mit einer Ressource verknüpfte Scanner extrahieren Metadaten aus der Ressource und speichern die Metadaten in Enterprise Data Catalog.
Weitere Informationen zur Erstellung von Ressourcen in Enterprise Data Catalog finden Sie im Kapitel zum Ressourcenmanagement im Informatica 10.2.2 Catalog Administrator-Handbuch.
Statistische Funktionen
Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden statistischen Funktionen auf Spalten in einem Arbeitsblatt anwenden:
- •AVG
- •AVGIF
- •COUNT
- •COUNTIF
- •COUNTDISTINCT
- •COUNTDISTINCTIF
- •MAX
- •MAXIF
- •MIN
- •MINIF
- •STDDEV
- •STDDEVIF
- •SUM
- •SUMIF
- •VARIANCE
- •VARIANCEIF
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Funktionen für Datum und Uhrzeit
Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden Funktionen für Datum und Uhrzeit auf Spalten in einem Arbeitsblatt anwenden:
- •ADD_TO_DATE
- •CURRENT_DATETIME
- •DATETIME
- •DATE_DIFF
- •DATE_TO_UNIXTIME
- •EXTRACT_MONTH_NAME
- •UNIXTIME_TO_DATE
- •Datum in Text umwandeln
- •Text in Datum umwandeln
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Mathematische Funktionen
Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden mathematischen Funktionen auf Spalten anwenden:
- •EXP
- •LN
- •LOG
- •PI
- •POWER
- •SQRT
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Textfunktionen
Ab Version 10.2.2 können Sie beim Vorbereiten von Daten die folgenden Textfunktionen auf Spalten anwenden:
- •ENDSWITH
- •ENDSWITH_IGNORE_CASE
- •FIND_IGNORE_CASE
- •FIND_REGEX
- •FIRST_CHARACTER_TO_NUMBER
- •NUMBER_TO_CHARACTER
- •PROPER_CASE
- •REMOVE_NON_ALPHANUMERIC_CHARACTERS
- •STARTSWITH
- •STARTSWITH_IGNORE_CASE
- •SUBSTITUTE_REGEX
- •TRIM_ALL
- •Datum in Text umwandeln
- •Zahl in Text umwandeln
- •Text in Datum umwandeln
- •Text in Zahl umwandeln
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Fensterfunktionen
Ab Version 10.2.2 können Sie Fensterfunktionen verwenden, um Operationen für Gruppen von Zeilen innerhalb eines Arbeitsblatts auszuführen. Die Gruppe der Zeilen, auf die eine Funktion wirkt, wird als Fenster bezeichnet. Für diese Gruppe legen Sie einen Partitionsschlüssel, einen Sortierschlüssel sowie optionale Offsets fest. Eine Fensterfunktion berechnet einen Rückgabewert für jede Eingabezeile innerhalb des Fensterkontexts.
Mit Fensterfunktionen können Sie die folgenden Aufgaben ausführen:
- •Abrufen von Daten aus vorherigen oder nachfolgenden Zeilen
- •Berechnen einer kumulativen Summe oder eines kumulativen Durchschnitts basierend auf einer Gruppe von Zeilen
- •Zuweisen einer laufenden Zeilennummer für jede Zeile in einer Gruppe von Zeilen
- •Ersetzen von Nullwerten in Zeilen durch den vorhergehenden Nicht-Nullwert innerhalb einer Gruppe von Zeilen
- •Generieren von Sitzungskennungen, mit denen sich Zeilen basierend auf einem spezifischen Zeitraum gruppieren lassen, etwa für die in einer Protokolldatei erfassten Website-Besuche
Sie die Möglichkeit, mehrere Fensterfunktionen auf ein Arbeitsblatt anzuwenden. Beispielsweise können Sie zunächst eine Funktion anwenden, um die Summe der Werte für jede Zeile nach der aktuellen Zeile innerhalb eines Fensters zu berechnen, und danach eine andere Funktion anwenden, um den Durchschnitt dieser Werte zu berechnen.
Enterprise Data Lake fügt zu jeder Funktion, die Sie auf das Arbeitsblatt anwenden, eine Spalte mit den jeweiligen Ergebnissen hinzu.
Weitere Informationen finden Sie im Kapitel „Daten vorbereiten“ des Informatica 10.2.2 Enterprise Data Lake-Benutzerhandbuchs.
Audit-Ereignisse bereinigen
Ab Version 10.2.2 können Sie den Befehl „infacmd edl purgeevents“ ausführen, um Benutzeraktivitätsereignisse aus der Datenbank für den Audit-Verlauf zu löschen. Optional können Sie den Befehl ausführen, um Projektverlaufsereignisse aus der Datenbank zu löschen.
Spark-Ausführungs-Engine
Ab Version 10.2.2 nutzt Enterprise Data Lake die Spark-Engine für Aufgaben mit hoher Ressourcenauslastung, beispielsweise Objektveröffentlichung, sowie zur Ausführung aktiver Regel-Mapplets, bei denen die Python-Umwandlung verwendet wird. Durch Einsatz der Spark-Engine für Aufgaben mit hoher Ressourcenauslastung wird eine höhere Leistung erreicht; zudem ist damit eine Bereitstellung von Enterprise Data Lake auf Amazon Elastic MapReduce (EMR) möglich, sodass die automatische Skalierung genutzt werden kann.