Intelligent Data Lake
In diesem Abschnitt werden die neuen Funktionen von Intelligent Data Lake in 10.2 beschrieben.
Validieren und Auswerten von Daten anhand von Visualisierung mit Apache Zeppelin
Ab Version 10.2 können Sie Ihre Daten visuell validieren, um sicherzustellen, dass die Daten für Ihre Analyse aus inhaltlichen und qualitativen Perspektiven angemessen sind, nachdem Sie Daten veröffentlichen. Sie können sich dann entscheiden, das Rezept zu reparieren, wodurch ein iterativer Prozess Vorbereitung-Veröffentlichung-Validierung unterstützt wird.
Intelligent Data Lake verwendet Apache Zeppelin, um die Arbeitsblätter in Form eines Visualisierungs-Notizbuchs anzuzeigen, das Diagramme und Grafiken enthält. Weitere Informationen über Apache Zeppelin finden Sie in der Dokumentation zu Apache Zeppelin. Wenn Sie Daten mit den Funktionen von Zeppelin visualisieren, können Sie Beziehungen zwischen verschiedenen Spalten anzeigen und mehrere Diagramme und Grafiken erstellen.
Wenn Sie das Visualisierungs-Notizbuch zum ersten Mal nach der Veröffentlichung eines Daten-Assets öffnen, nutzt Intelligent Data Lake die CLAIRE-Engine, um Empfehlungen für Smart Visualization in Form von Histogrammen der numerischen Spalten zu erstellen, die vom Benutzer erstellt werden.
Weitere Informationen über das Visualisierungs-Notizbuch finden Sie im Kapitel „Validieren und Auswerten von Daten über die Visualisierung mit Apache Zeppelin“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Auswerten von Daten mithilfe von Filtern während der Datenvorschau
Ab Version 10.2 können Sie die Daten während der Datenvorschau für eine bessere Beurteilung der Datenbestände filtern. Sie können Filter für mehrere Felder hinzufügen und Kombinationen aus diesen Filtern anwenden. Filterbedingungen hängen von den Datentypen ab. Wenn verfügbar, können Sie Spaltenwerthäufigkeiten anzeigen, die während des Profilings für Zeichenfolgenwerte gefunden werden.
Weitere Informationen finden Sie im Kapitel „Erkennen von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Erweitertes Layout des Rezept-Bereichs
Ab Version 10.2 können Sie einen speziellen Bereich für Rezept-Schritte während der Datenaufbereitung sehen. Die Rezeptschritte sind deutlicher und prägnant mit Farbcodes, um den Funktionsnamen, beteiligte Spalten und Eingabequellen anzugeben. Sie können die Schritte bearbeiten oder löschen. Sie können auch zu einem bestimmten Schritt im Rezept zurückgehen und den Zustand der Daten sehen. Sie können das Rezept aus der Quelle aktualisieren. Sie können auch einen separaten Bereich „Zutaten“ sehen, der die für dieses Blatt verwendeten Quellen zeigt.
Weitere Informationen finden Sie im Kapitel „Aufbereiten von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Anwenden von Regeln zur Datenqualität
Ab Version 10.2 können Sie während der Vorbereitung der Daten vordefinierte Regeln verwenden, die während der interaktiven Datenaufbereitung verfügbar sind. Diese Regeln werden mit Informatica Developer oder Informatica Analyst erstellt. Wenn Sie eine große Datenqualitätslizenz besitzen, sind unzählige vordefinierte Regeln verfügbar, die auch von Benutzern von Intelligent Data Lake verwendet werden können. Die Verwendung vordefinierter Regeln fördert die effektive Zusammenarbeit innerhalb von Unternehmen und der IT-Abteilung dank der Wiederverwendbarkeit von Regeln und Kenntnissen, der Konsistenz der Nutzung und der Erweiterbarkeit.
Weitere Informationen finden Sie im Kapitel „Aufbereiten von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Anzeigen von geschäftlichen Bedingungen für Daten-Assets in der Datenvoransicht und in der Arbeitsblattansicht
Ab Version 10.2 können Sie Geschäftsbegriffe, die mit Spalten von Datenassets verknüpft sind, in der Datenansicht sowie während der Vorbereitung der Daten anzeigen.
Weitere Informationen finden Sie im Kapitel „Erkennen von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Vorbereiten von Daten für abgegrenzte Dateien
Ab Version 10.2 können Sie als Daten-Analytiker andere Vorgänge für begrenzte HDFS-Dateien bereinigen, umwandeln, kombinieren, hinzufügen und durchführen, die sich bereits im Lake befinden. Sie können diese Dateien in einer Vorschau anzeigen, bevor Sie sie einem Projekt hinzufügen. Anschließend können Sie die Sampling-Einstellungen dieser Assets konfigurieren und die Vorgänge zur Vorbereitung der Daten durchführen.
Weitere Informationen finden Sie im Kapitel „Aufbereiten von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Bearbeiten von Joins in einem zusammengeführten Arbeitsblatt
Ab Version 10.2 können Sie die Join-Bedingungen für ein vorhandenes zusammengeführtes Arbeitsblatt wie beispielsweise Join-Keys, Join-Typen (z. B. Inner und Outer Joins) bearbeiten.
Weitere Informationen finden Sie im Kapitel „Aufbereiten von Daten“ im Informatica Intelligent Data Lake-Benutzerhandbuch.
Bearbeiten von Sampling-Einstellungen für die Datenaufbereitung
Ab Version 10.2 können Sie die Sampling-Einstellungen während der Aufbereitung Ihres Datenassets bearbeiten. Sie können die für das Sampling ausgewählten Spalten ändern, die ausgewählten Filter bearbeiten und die Sampling-Kriterien ändern.
Weitere Informationen finden Sie im Kapitel „Aufbereiten von Daten“ im Benutzerhandbuch zu Informatica Intelligent Data Lake 10.2.
Unterstützung für mehrere Enterprise Information Catalog-Ressourcen im Data Lake
Ab Version 10.2 können Sie mehrere Ressourcen von Enterprise Information Catalog konfigurieren, damit die Benutzer mit allen Arten von Assets und allen anwendbaren Hive-Schemas im Lake arbeiten können.
Verwenden von Oracle für das Datenaufbereitungsdienst-Repository
Ab Version 10.2 können Sie jetzt Oracle 11gR2 und 12c für das Repository des Datenaufbereitungsdiensts verwenden.
Verbesserte Skalierbarkeit für den Datenvorbereitungsdienst
Ab Version 10.2 können Sie die horizontale Skalierbarkeit sicherstellen, indem Sie ein Raster für den Datenvorbereitungsdienst mit mehreren Knoten des Datenvorbereitungsdiensts verwenden. Eine verbesserte Skalierbarkeit unterstützt eine leistungsfähige interaktive Datenvorbereitung, wenn hohe Datenmengen und eine erhöhte Anzahl an Benutzern registriert werden.