What's New and Changed (10.5.7) > Teil XII: Version 10.2.1 > Neue Funktionen in 10.2.1 > Big Data Management

Big Data Management

In diesem Abschnitt werden neue Big Data Management-Funktionen in Version 10.2.1 erläutert.

Blaze-Engine Ressourcenschonung

Ab Version 10.2.1 können Sie die Ressourcen, die die Blaze-Engine-Infrastruktur nutzt, schonen.

Setzen Sie die Eigenschaft infagrid.blaze.service.idle.timeout, um die Anzahl der Minuten anzugeben, die die Blaze-Engine im Leerlauf bleibt, bevor Ressourcen freigegeben werden. Setzen Sie die Eigenschaft infagrid.orchestrator.svc.sunset.time, um die maximale Anzahl von Stunden für den Blaze-Orchestrator-Dienst festzulegen. Sie können den Befehl infacmd isp createConnection verwenden oder die Eigenschaft in den Blaze Advanced-Eigenschaften in der Hadoop-Verbindung im Administrator Tool oder im Developer Tool festlegen.

Weitere Informationen zu diesen Eigenschaften finden Sie im Administratorhandbuch zu Informatica Big Data Management 10.2.1.

Cluster-Workflows

Sie können neue Workflow-Aufgaben verwenden, um einen Cluster-Workflow anzulegen.

Ein Cluster-Workflow erstellt einen Cluster auf einer Cloud-Plattform und führt Zuordnungen und andere Workflow-Aufgaben auf dem Cluster aus. Um Cluster-Ressourcen zu sparen, können Sie den Cluster beenden und löschen, wenn die Workflow-Aufgaben abgeschlossen sind.

Mit zwei neuen Workflow-Aufgaben können Sie einen Hadoop-Cluster als Teil eines Cluster-Workflows erstellen und löschen:

Clusteraufgabe erstellen: Mit der Aufgabe "Cluster erstellen" können Sie einen Hadoop-Cluster auf den folgenden Cloud-Plattformen erstellen, konfigurieren und starten:
Clusteraufgabe löschen: Mit der optionalen Aufgabe "Cluster löschen" können Sie einen Cluster löschen, nachdem die Mapping-Aufgaben und alle anderen Aufgaben im Workflow abgeschlossen sind. Dies kann sinnvoll sein, um Kosten zu sparen.

Bisher konnten Sie Befehlsaufgaben in einem Workflow verwenden, um Cluster auf einer Cloud-Plattform zu erstellen. Weitere Informationen zu Cluster-Workflows und Workflow-Aufgaben finden Sie im Informatica 10.2.1 Handbuch für Arbeitsablauf-Entwickler.

HINWEIS: In 10.2.1 unterstützt die Befehlsaufgabe-Methode zum Erstellen und Löschen von Clustern nun Cloudera Altus-Cluster auf AWS. Weitere Informationen finden Sie im Artikel "How to Create Cloudera Altus Clusters with a Cluster Workflow on Big Data Management" (Erstellen von Cloudera-Altus-Clustern mit einem Cluster-Workflow zur Verwaltung großer Datenmengen) im Informatica-Netzwerk.

Zuordnungsaufgabe: Zu den erweiterten Eigenschaften der Mapping-Aufgabe gehört eine neue ClusterIdentifier-Eigenschaft. ClusterIdentifier identifiziert den Cluster, der zur Ausführung der Mapping-Aufgabe verwendet werden soll.

Weitere Informationen zu Cluster-Workflows finden Sie im Informatica 10.2.1 Handbuch für Arbeitsablauf-Entwickler.

Cloud-Bereitstellungkonfiguration

Eine Cloud-Bereitstellungskonfiguration ist ein Objekt, das Informationen über die Verbindung zu einem Hadoop-Cluster enthält.

Die Konfiguration der Cloud-Bereitstellung enthält Informationen zur Integration der Domäne mit Hadoop-Authentifizierung und Speicherressourcen. Ein Cluster-Workflow verwendet die Informationen in der Cloud-Bereitstellungskonfiguration, um sich mit einer Cloud-Plattform wie Amazon Web Services oder Microsoft Azure zu verbinden und einen Cluster zu erstellen.

Weitere Informationen zur Cloud-Bereitstellung finden Sie im Kapitel "Konfiguration der Cloud-Bereitstellung" im Administratorhandbuch zu Informatica Big Data Management 10.2.1.

Hohe Verfügbarkeit

Ab Version 10.2.1 können Sie hohe Verfügbarkeit für die folgenden Dienste und Sicherheitssysteme in der Hadoop-Umgebung auf Cloudera CDH-, Hortonworks HDP- und MapR Hadoop-Distributionen aktivieren:

•Apache Ranger
•Apache Ranger KMS
•Apache Sentry
•Cloudera Navigator Encrypt
•HBase
•Hive Metastore
•HiveServer2
•Namensknoten
•Ressourcenmanager

Hive-Funktionalität in der Hadoop-Umgebung

Dieser Abschnitt beschreibt neue Funktionen für die Hive-Funktionalität in der Hadoop-Umgebung in Version 10.2.1.

Trunkierung der Hive-Tabelle

Ab Version 10.2.1 können Sie externe partitionierte Hive-Tabellen auf allen Laufzeit-Engines kürzen.

Sie können Tabellen in den folgenden Hive-Speicherformaten kürzen:

•Avro
•ORC
•Parquet
•RCFile
•Sequenz
•Text

Sie können Tabellen in den folgenden externen Hive-Tabellenformaten kürzen:

•Hive auf HDFS
•Hive auf Amazon S3
•Hive auf Azure Blob
•Hive auf WASB
•Hive auf ADLS

Weitere Informationen zum Trunkieren von Hive-Zielen finden Sie im Kapitel zum Mapping von Zielen in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Pre- und Post-Mapping-SQL-Befehle

Ab Version 10.2.1 können Sie PreSQL- und PostSQL-Befehle mit Hive-Quellen und -Ziele in Mappings konfigurieren, die auf der Spark-Engine laufen.

Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Importieren aus PowerCenter

Dieser Abschnitt beschreibt den neuen Import von PowerCenter-Funktionen in Version 10.2.1.

Sitzungseigenschaften aus PowerCenter importieren

Ab Version 10.2.1 können Sie Sitzungseigenschaften wie SQL-basierte Overrides in relationalen Quellen und Zielen und sowie Overrides für die Lookup-Transformation aus dem PowerCenter-Repository in das Modellrepository importieren.

Weitere Informationen zum Import aus PowerCenter finden Sie im Kapitel "Importieren aus PowerCenter" im Informatica 10.2.1 Mapping-Handbuch für Developer.

SQL-Parameter

Ab Version 10.2.1 können Sie einen SQL-Parametertyp angeben, um alle SQL-basierten Überschreibungen in das Modellrepository zu importieren. Die restlichen Eigenschaften der Sitzung werden einer Zeichenfolge oder einem entsprechenden Parametertyp zugeordnet.

Weitere Informationen finden Sie im Kapitel "Importieren aus PowerCenter" im Zuordnungshandbuch zu Informatica Developer 10.2.1.

Importieren einer Befehlsaufgabe aus PowerCenter

Ab Version 10.2.1 können Sie eine Befehlstask aus PowerCenter in das Modellrepository importieren.

Weitere Informationen finden Sie im Kapitel "Arbeitsabläufe" im Informatica 10.2.1 Developer-Arbeitsablaufhandbuch.

Intelligentes Strukturmodell

Ab Version 10.2.1 können Sie das intelligente Strukturmodell im Big Data Management nutzen.

Spark-Engine-Unterstützung für Datenobjekte mit intelligentem Strukturmodell

Massenerfassung

Mit der Version 10.2.1 können Sie die Massenerfassung zur Erfassung oder Replikation in einer Datenbank oder einem Repository durchführen. Um Massenerfassungsjobs durchzuführen, verwenden Sie das Werkzeug "Massenerfassung" zum Erstellen einer Massenerfassungsspezifikation Sie konfigurieren die Massenerfassungsspezifikation, um Daten aus einer relationalen Datenbank in ein Hive- oder HDFS-Ziel aufzunehmen. Sie können auch Parameter angeben, um die von Ihnen erfassten Daten zu bereinigen.

Eine Massenerfassungsspezifikation ersetzt das manuelle Erstellen und Ausführen von Mappings. Sie können eine Massenerfassungsspezifikation erstellen, die alle Daten auf einmal erfasst.

Weitere Informationen zur Massenerfassung finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Überwachung

In diesem Abschnitt werden die neuen Funktionen für die Überwachung von Big Data Management in Version 10.2.1 erläutert.

Hadoop Clusterüberwachung

Ab Version 10.2.1 können Sie die Menge der Informationen konfigurieren, die in den Anwendungsprotokollen angezeigt werden, die Sie für einen Hadoop-Cluster überwachen.

Die Menge der Informationen in den Anwendungsprotokollen hängt von der Tracing-Ebene ab, die Sie für eine Zuordnung im Developer Tool konfigurieren. Die folgende Tabelle beschreibt die Menge an Informationen, die in den Anwendungsprotokollen für jede Tracing-Ebene angezeigt wird:

Tracing-Level	Meldungen
Keiner	Das Protokoll zeigt FATAL-Meldungen an. Zu FATAL-Meldungen gehören nicht behebbare Systemfehler, die bewirken, dass der Dienst beendet wird oder nicht mehr verfügbar ist.
Kurz	Das Protokoll zeigt FATAL- und ERROR-Code-Meldungen an. Zu ERROR-Meldungen gehören Verbindungsfehler, Fehler beim Speichern oder Abrufen von Metadaten, Dienstfehler.
Normal	Das Protokoll zeigt die Meldungen FATAL, ERROR und WARNING an. WARNING-Fehler beinhalten wiederherstellbare Systemfehler oder Warnungen.
Verbose-Initialisierung.	Das Protokoll zeigt die Meldungen FATAL, ERROR, WARNING und INFO an. INFO-Meldungen beinhalten System- und Dienständerungsmeldungen.
Verbose-Daten.	Das Protokoll zeigt die Meldungen FATAL, ERROR, WARNING, INFO und DEBUG an. DEBUG-Meldungen sind Benutzeranfrageprotokolle.

Weitere Informationen finden Sie im Kapitel zur Überwachung von Mapping in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Spark-Überwachung

Ab Version 10.2.1 lauscht der Spark-Exekutor auf einem Port auf Spark-Ereignisse als Teil der Spark-Überwachungsunterstützung und es ist nicht erforderlich, den SparkMonitoringPort zu konfigurieren.

Der Datenintegrationsdienst verfügt über eine Reihe von verfügbaren Ports und der Spark-Exektuor wählt einen Port aus dem verfügbaren Bereich aus. Im Fehlerfall bleibt die Portverbindung erhalten und Sie müssen den Datenintegrationsdienst nicht neu starten, bevor Sie das Mapping ausführen.

Die benutzerdefinierte Eigenschaft für den Überwachungsport bleibt erhalten. Wenn Sie die Eigenschaft konfigurieren, verwendet der Datenintegrationsdienst den angegebenen Port zum Listening für Spark-Ereignisse.

Bisher konnte mit der benutzerdefinierten Eigenschaft "Datenintegrationsdienst" der Spark-Überwachungsport den Spark-Listenerport konfigurieren. Wenn Sie die Eigenschaft nicht konfiguriert haben, war Spark-Überwachung standardmäßig deaktiviert.

Tez-Überwachung

Ab Version 10.2.1 können Sie die Eigenschaften der Tez-Engine-Überwachung anzeigen. Sie können die Hive-Engine verwenden, um das Mapping auf MapReduce oder Tez auszuführen. Die Tez-Engine kann Jobs auf Hortonworks HDP, Azure HDInsight und Amazon Elastic MapReduce verarbeiten. Um ein Spark-Mapping auf Tez durchzuführen, können Sie jeden der unterstützten Cluster für Tez verwenden.

Im Administrator Tool können Sie auch die Hive-Abfrageeigenschaften für Tez überprüfen, wenn Sie die Hive-Engine überwachen. Im Hive-Sitzungsprotokoll und in Tez können Sie Informationen zu den Tez-Statistiken anzeigen, z. B. DAG-Tracking URL, Vertex-Gesamtzahl und DAG-Fortschritt.

Sie können jede Hive-Abfrage auf der Tez-Engine überwachen. Wenn Sie die Protokollierung für ausführliche Daten oder die ausführliche Initialisierung aktivieren, können Sie die Tez-Engine-Informationen im Administrator Tool oder im Sitzungsprotokoll anzeigen. Sie können auch den Status des Mappings auf der Tez-Engine auf der Registerkarte "Überwachung" im Administrator Tool überwachen.

Weitere Informationen zur Tez-Überwachung finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch und im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.1.

Verarbeitung hierarchischer Daten auf der Spark-Engine

Ab Version 10.2.1 enthält die Spark-Engine die folgenden zusätzlichen Funktionen zur Verarbeitung hierarchischer Daten:

Map-Datentyp: Mit dem Map-Datentyp können Sie Kartendaten in komplexen Dateien erzeugen und verarbeiten.

Komplexe Dateien auf Amazon S3: Sie können komplexe Datentypen verwenden, um hierarchische Daten in Avro- und Parquet-Dateien auf Amazon S3 zu lesen und zu schreiben. Sie projizieren Spalten als komplexen Datentyp in Lese- und Schreiboperationen für das Datenobjekt.

Weitere Informationen finden Sie im Kapitel "Verarbeitung hierarchischer Daten in der Spark-Engine" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.

Unterstützung der Regelspezifikation auf der Spark-Engine

Ab Version 10.2.1 können Sie ein Mapping durchführen, das zusätzlich zu den Blaze- und Hive-Engines eine Regelspezifikation für die Spark-Engine enthält.

Sie können auch ein Mapping durchführen, das ein Mapplet enthält, das Sie zusätzlich zu den Blaze- und Hive-Engines aus einer Regelspezifikation der Spark-Engine generieren.

Weitere Informationen zu Regelspezifikationen finden Sie im Informatica 10.2.1-Regelspezifikationshandbuch.

Sicherheit

In diesem Abschnitt werden die neuen Funktionen für die Sicherheit von Big Data Management in Version 10.2.1 erläutert.

Cloudera Navigator Verschlüsseln

Ab Version 10.2.1 können Sie mit Cloudera Navigator Encrypt die Daten sichern und eine transparente Verschlüsselung der Daten im Ruhezustand implementieren.

EMR-Dateisystemberechtigung

Ab Version 10.2.1 können Sie die Berechtigung EMR File System (EMRFS) verwenden, um auf Daten in Amazon S3 auf der Spark-Engine zuzugreifen.

IAM-Rollen

Ab Version 10.2.1 können Sie IAM-Rollen für das EMR-Dateisystem zum Lesen und Schreiben von Daten aus dem Cluster auf Amazon S3 in Amazon EMR-Cluster Version 5.10 verwenden.

Kerberos-Authentifizierung

Ab Version 10.2.1 können Sie die Kerberos-Authentifizierung für die folgenden Cluster aktivieren:

•Amazon EMR
•Azur HDInsight mit WASB als Lagerung

LDAP-Authentifizierung

Ab Version 10.2.1 können Sie die Authentifizierung über Lightweight Directory Access Protocol (LDAP) für Amazon EMR Cluster Version 5.10 konfigurieren.

Sqoop

Ab Version 10.2.1 können Sie die folgenden neuen Sqoop-Funktionen nutzen:

Unterstützung für MapR Connector for Teradata
Optimieren von Sqoop-Pass-Through-Mappings für die Spark-Engine
Spark-Engine-Unterstützung für Hochverfügbarkeit und Sicherheitsmerkmale
Unterstützung der Spark-Engine für Teradata-Datenobjekte

Umwandlungsunterstützung in der Hadoop-Umgebung

Dieser Abschnitt beschreibt neue Umwandlungsfunktionen in der Hadoop-Umgebung in Version 10.2.1.

Umwandlungsunterstützung für die Spark-Engine

In diesem Abschnitt werden neue Umwandlungsfunktionen der Spark-Engine in Version 10.2.1 erläutert.

Umwandlungsunterstützung

Ab Version 10.2.1 werden die folgenden Umwandlungen für die Spark-Engine unterstützt:

•Groß-/Kleinschreibungsumwandler
•Klassifizierer
•Vergleich
•Schlüsselgenerator
•Beschriftung
•Zusammenführung
•Parser
•Python
•Standardisierer
•Gewichteter Durchschnitt

Ab Version 10.2.1 werden die folgenden Umwandlungen mit Einschränkungen für die Spark-Engine unterstützt:

•Adressvalidierer
•Konsolidierung
•Entscheidung
•Match
•Sequenzgenerator

Ab Version 10.2.1 gilt für die folgende Umwandlung zusätzliche Unterstützung für die Spark-Engine:

•Java Unterstützt komplexe Datentypen wie array, map und struct zur Verarbeitung hierarchischer Daten.

Weitere Informationen zur Umwandlungsunterstützung finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.

Weitere Informationen zu Umwandlungsvorgängen finden Sie im Informatica 10.2.1 Developer-Umwandlungshandbuch.

Python-Umwandlung

Ab Version 10.2.1 können Sie im Developer Tool eine Python-Umwandlung erstellen. Verwenden Sie die Python-Umwandlung, um Python-Code in einem Mapping auszuführen, das auf der Spark-Engine läuft.

Sie können eine Python-Umwandlung verwenden, um ein Maschinenmodell auf den Daten zu implementieren, die Sie durch die Umwandlung übergeben. Verwenden Sie beispielsweise die Python-Umwandlung, um Python-Code zu schreiben, der ein vortrainiertes Modell lädt. Mit dem vorbereiteten Modell können Sie Eingabedaten klassifizieren oder Prognosen erstellen.

HINWEIS: Die Python-Umwandlung steht für die technische Vorschau zur Verfügung. Die Funktion zur technischen Vorschau wird unterstützt, ist aber noch nicht produktionsreif. Informatica empfiehlt, diese Funktion nur in Nicht-Produktionsumgebungen zu verwenden.

Weitere Informationen finden Sie im Kapitel "Python-Umwandlung" im Informatica 10.2.1 Developer-Umwandlungshandbuch.

Updatestrategie-Umwandlung

Ab Version 10.2.1 können Sie Hive-MERGE-Anweisungen für Mappings, die auf der Spark-Engine laufen, um Update-Strategie-Aufgaben durchzuführen. Der Einsatz von MERGE in Abfragen ist in der Regel effizienter und steigert der Leistung.

Hive-MERGE-Anweisungen werden für die folgenden Hadoop-Distributionen unterstützt:

•Amazon EMR 5.10
•Azure HDInsight 3.6
•Hortonworks HDP 2.6

Um Hive MERGE zu verwenden, wählen Sie die Option in den erweiterten Eigenschaften der Update-Strategieumwandlung.

Bisher verwendete der Datenintegrationsdienst INSERT-, UPDATE- und DELETE-Anweisungen, um diese Aufgabe mit einer beliebigen Laufzeit-Engine durchzuführen. Die Update-Strategieumwandlung verwendet diese Anweisungen weiterhin in den folgenden Szenarien:

•Sie wählen nicht die Hive MERGE-Option.
•Mappings laufen auf der Hive- oder Blaze-Maschine.
•Wenn die Hadoop-Distribution Hive MERGE nicht unterstützt.

Weitere Informationen zur Verwendung einer MERGE-Anweisung in Update-Strategieumwandlungen finden Sie im Kapitel "Update-Strategieumwandlung" im Informatica Big Data Management 10.2.1-Benutzerhandbuch.

Umwandlungsunterstützung für die Blaze-Engine

In diesem Abschnitt werden neue Umwandlungsfunktionen der Blaze-Engine in Version 10.2.1 erläutert.

Aggregat-Umwandlung

Ab Version 10.2.1 verwendet der Daten-Cache für die Aggregat-Umwandlung eine variable Länge, um Binär- und String-Datentypen auf der Blaze-Engine zu speichern. Variable Länge reduziert die Datenmenge, die der Daten-Cache speichert, wenn die Aggregat-Umwandlung läuft.

Wenn Daten, die die Aggregat-Umwandlung durchlaufen, mit variabler Länge im Daten-Cache abgelegt werden, wird die Aggregat-Umwandlung für die Verwendung von sortierten Eingaben optimiert und eine Sorter-Transformation vor der Aggregat-Umwandlung in das Laufzeit-Mapping eingefügt.

Weitere Informationen finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.

Vergleichsumwandlung

Ab Version 10.2.1 können Sie ein Mapping ausführen, das eine Match-Umwandlung enthält, die Sie für die Identitätsanalyse auf der Blaze-Engine konfigurieren.

Konfigurieren Sie die Match-Umwandlung, um die Identitätsindexdaten in Cache-Dateien zu schreiben. Das Mapping schlägt fehl, wenn Sie die Match-Umwandlung so konfigurieren, dass die Indexdaten in Datenbanktabellen geschrieben werden.

Weitere Informationen zur Umwandlungsunterstützung finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.

Rang-Umwandlung

Ab Version 10.2.1 verwendet der Daten-Cache für die Rangumwandlung eine variable Länge, um Binär- und String-Datentypen auf der Blaze-Engine zu speichern. Variable Länge reduziert die Datenmenge, die der Daten-Cache speichert, wenn die Rangumwandlung läuft.

Wenn Daten, die die Rangumwandlung durchlaufen, mit variabler Länge im Daten-Cache abgelegt werden, wird die Rangumwandlung für die Verwendung von sortierten Eingaben optimiert und eine Sorter-Transformation vor der Rangumwandlung in das Laufzeit-Mapping eingefügt.

Weitere Informationen finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.

Weitere Informationen zu Umwandlungsvorgängen finden Sie im Informatica 10.2.1 Developer-Umwandlungshandbuch.