Enterprise Data Lake
In diesem Abschnitt werden neue Enterprise Data Lake-Funktionen in Version 10.2.1 erläutert.
Spaltendaten
Ab Version 10.2.1 können Sie die folgenden Funktionen verwenden, wenn Sie mit Spalten in Arbeitsblättern arbeiten:
- •Sie können verwandte Werte in einer Spalte in Kategorien kategorisieren oder gruppieren, um die Analyse zu erleichtern.
- •Sie können die Datenquelle für eine ausgewählte Spalte in einem Arbeitsblatt anzeigen. Es kann sinnvoll sein, die Quelle der Daten in einer Spalte anzuzeigen, um ein Problem zu beheben.
- •Sie können Typen oder Datendomänen, die bei Stichproben auf Spalten abgeleitet wurden, auf den Quelltyp zurücksetzen. Wenn Sie die Spaltendaten in einer Formel verwenden wollen, können Sie einen abgeleiteten Typ oder eine abgeleitete Datendomäne auf den Quelltyp zurücksetzen.
Weitere Informationen finden Sie im Kapitel "Daten vorbereiten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.
Verwalten von Data Lake Ressourcen
Ab Version 10.2.1 können Sie mit der Enterprise Data Lake-Anwendung Ressourcen zu Enterprise Data Catalog hinzufügen und löschen. Katalogressourcen stellen die externen Datenquellen und Metadaten-Repositorys dar, aus denen Scanner Metadaten extrahieren, die im Datensee verwendet werden können.
Weitere Informationen finden Sie im Kapitel "Verwalten von Data Lake" im Informatica 10.2.1 Enterprise Data Lake-Administratorhandbuch.
Datenvorbereitungsvorgänge
Ab Version 10.2.1 können Sie folgende Vorgänge während der Datenvorbereitung durchführen:
- Pivot von Daten
- Mit dem pivot-Vorgang können Sie die Daten in ausgewählten Spalten eines Arbeitsblatts in ein verdichtetes Format umformen. Mit dem Pivot-Vorgang können Sie Daten für die Analyse gruppieren und aggregieren, z. B. den durchschnittlichen Preis von Einfamilienhäusern, die in jeder Stadt in den ersten sechs Monaten des Jahres verkauft wurden.
- Daten-Pivot rückgängig machen
- Mit dem unpivot-Vorgang können Sie Spalten eines Arbeitsblatts in Zeilen umwandeln, die die Spaltendaten im Schlüsselwertformat enthalten. Der unpivot-Vorgang ist nützlich, wenn Sie Daten in einem Arbeitsblatt in Zeilen basierend auf Schlüsseln und entsprechenden Werten aggregieren wollen.
- 1-aus-n-Code anwenden
- Sie können die 1-aus n-Codierung verwenden, um die Existenz eines String-Wertes in einer ausgewählten Spalte innerhalb jeder Zeile in einem Arbeitsblatt zu bestimmen. Sie können die 1-aus-n-Codierung verwenden, um kategorische Werte in einem Arbeitsblatt in numerische Werte umzuwandeln, die von Algorithmen für maschinelles Lernen benötigt werden.
Weitere Informationen finden Sie im Kapitel "Daten vorbereiten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.
Vorbereiten von JSON-Dateien
Ab Version 10.2.1 können Sie die hierarchischen Daten in JavaScript Object Notation Lines-(JSONL)-Dateien, die Sie Ihrem Projekt als ersten Schritt der Datenaufbereitung hinzufügen, auswerten. Enterprise Data Lake konvertiert die JSON-Dateistruktur in eine flache Struktur und stellt die Daten in einem Arbeitsblatt dar, mit dem Sie die Daten abtasten.
Weitere Informationen finden Sie im Kapitel "Daten vorbereiten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.
Rezeptschritte
Ab Version 10.2.1 können Sie die folgenden Funktionen verwenden, wenn Sie mit Rezepten in Arbeitsblättern arbeiten:
- •Sie können in einem Arbeitsblatt angelegte Rezeptschritte wiederverwenden, auch solche, die komplexe Formeln oder Regeldefinitionen enthalten. Sie können Rezeptschritte innerhalb desselben Arbeitsblatts oder in einem anderen Arbeitsblatt wiederverwenden, einschließlich eines Arbeitsblatts in einem anderen Projekt. Sie können ausgewählte Rezeptschritte kopieren und wiederverwenden, oder Sie können das gesamte Rezept wiederverwenden.
- •Sie können einen Schritt an beliebiger Stelle in ein Rezept einfügen.
- •Sie können einen Filter hinzufügen oder einen Filter ändern, der auf einen Rezeptschritt angewendet wird.
Weitere Informationen finden Sie im Kapitel "Daten vorbereiten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.
Planen des Exportierens, Importierens und Veröffentlichens von Aktivitäten
Ab Version 10.2.1 können Sie den Export, den Import und die Veröffentlichung von Datenbeständen planen. Das Planen einer Aktivität ermöglicht es Ihnen, aktualisierte Datenbestände regelmäßig zu importieren, zu exportieren oder zu veröffentlichen.
Wenn Sie eine Aktivität einplanen, können Sie einen neuen Zeitplan erstellen oder einen vorhandenen Zeitplan auswählen. Sie können Zeitpläne verwenden, die von anderen Benutzern erstellt wurden, und andere Benutzer können Zeitpläne verwenden, die Sie erstellen.
Weitere Informationen finden Sie im Kapitel "Planung von Export, Import und Veröffentlichung von Aktivitäten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.
Authentifizierung durch Security Assertion Markup Language
Ab Version 10.2.1 unterstützt die Enterprise Data Lake-Anwendung die Authentifizierung mit Security Assertion Markup Language (SAML).
Weitere Informationen zur Konfiguration der SAML-Authentifizierung finden Sie im Informatica 10.2.1-Sicherheitshandbuch.
Anzeige von Projektablauf und Projektverlauf
Ab Version 10.2.1 können Sie Projektablaufdiagramme anzeigen und die in einem Projekt durchgeführten Aktivitäten überprüfen.
Sie können ein Flussdiagramm anzeigen, das Ihnen zeigt, wie Arbeitsblätter in einem Projekt zusammenhängen und wie sie abgeleitet werden. Das Diagramm ist besonders nützlich, wenn Sie an einem komplexen Projekt arbeiten, das zahlreiche Arbeitsblätter und zahlreiche Objekte enthält.
Sie können auch die komplette Historie der Aktivitäten innerhalb eines Projekts einsehen, einschließlich der Aktivitäten, die auf Arbeitsblättern innerhalb des Projekts ausgeführt wurden. Die Anzeige des Projektverlaufs kann Ihnen helfen, die Ursache von Problemen innerhalb des Projekts zu ermitteln.
Weitere Informationen finden Sie im Kapitel "Projekte erstellen und verwalten" im Informatica 10.2.1 Enterprise Data Lake Benutzerhandbuch.