Big Data Management
In diesem Abschnitt werden neue Big Data Management-Funktionen in Version 10.2.1 erläutert.
Blaze-Engine Ressourcenschonung
Ab Version 10.2.1 können Sie die Ressourcen, die die Blaze-Engine-Infrastruktur nutzt, schonen.
Setzen Sie die Eigenschaft infagrid.blaze.service.idle.timeout, um die Anzahl der Minuten anzugeben, die die Blaze-Engine im Leerlauf bleibt, bevor Ressourcen freigegeben werden. Setzen Sie die Eigenschaft infagrid.orchestrator.svc.sunset.time, um die maximale Anzahl von Stunden für den Blaze-Orchestrator-Dienst festzulegen. Sie können den Befehl infacmd isp createConnection verwenden oder die Eigenschaft in den Blaze Advanced-Eigenschaften in der Hadoop-Verbindung im Administrator Tool oder im Developer Tool festlegen.
Weitere Informationen zu diesen Eigenschaften finden Sie im Administratorhandbuch zu Informatica Big Data Management 10.2.1.
Cluster-Workflows
Sie können neue Workflow-Aufgaben verwenden, um einen Cluster-Workflow anzulegen.
Ein Cluster-Workflow erstellt einen Cluster auf einer Cloud-Plattform und führt Zuordnungen und andere Workflow-Aufgaben auf dem Cluster aus. Um Cluster-Ressourcen zu sparen, können Sie den Cluster beenden und löschen, wenn die Workflow-Aufgaben abgeschlossen sind.
Mit zwei neuen Workflow-Aufgaben können Sie einen Hadoop-Cluster als Teil eines Cluster-Workflows erstellen und löschen:
- Clusteraufgabe erstellen
- Mit der Aufgabe "Cluster erstellen" können Sie einen Hadoop-Cluster auf den folgenden Cloud-Plattformen erstellen, konfigurieren und starten:
- - Amazon Web Services (AWS). Sie können einen Amazon EMR-Cluster erstellen.
- - Microsoft Azure. Sie können einen HDInsight-Cluster erstellen.
- Clusteraufgabe löschen
- Mit der optionalen Aufgabe "Cluster löschen" können Sie einen Cluster löschen, nachdem die Mapping-Aufgaben und alle anderen Aufgaben im Workflow abgeschlossen sind. Dies kann sinnvoll sein, um Kosten zu sparen.
Bisher konnten Sie Befehlsaufgaben in einem Workflow verwenden, um Cluster auf einer Cloud-Plattform zu erstellen. Weitere Informationen zu Cluster-Workflows und Workflow-Aufgaben finden Sie im Informatica 10.2.1 Handbuch für Arbeitsablauf-Entwickler.
HINWEIS: In 10.2.1 unterstützt die Befehlsaufgabe-Methode zum Erstellen und Löschen von Clustern nun Cloudera Altus-Cluster auf AWS. Weitere Informationen finden Sie im Artikel "How to Create Cloudera Altus Clusters with a Cluster Workflow on Big Data Management" (Erstellen von Cloudera-Altus-Clustern mit einem Cluster-Workflow zur Verwaltung großer Datenmengen) im Informatica-Netzwerk.
- Zuordnungsaufgabe
- Zu den erweiterten Eigenschaften der Mapping-Aufgabe gehört eine neue ClusterIdentifier-Eigenschaft. ClusterIdentifier identifiziert den Cluster, der zur Ausführung der Mapping-Aufgabe verwendet werden soll.
Weitere Informationen zu Cluster-Workflows finden Sie im Informatica 10.2.1 Handbuch für Arbeitsablauf-Entwickler.
Cloud-Bereitstellungkonfiguration
Eine Cloud-Bereitstellungskonfiguration ist ein Objekt, das Informationen über die Verbindung zu einem Hadoop-Cluster enthält.
Die Konfiguration der Cloud-Bereitstellung enthält Informationen zur Integration der Domäne mit Hadoop-Authentifizierung und Speicherressourcen. Ein Cluster-Workflow verwendet die Informationen in der Cloud-Bereitstellungskonfiguration, um sich mit einer Cloud-Plattform wie Amazon Web Services oder Microsoft Azure zu verbinden und einen Cluster zu erstellen.
Weitere Informationen zur Cloud-Bereitstellung finden Sie im Kapitel "Konfiguration der Cloud-Bereitstellung" im Administratorhandbuch zu Informatica Big Data Management 10.2.1.
Hohe Verfügbarkeit
Ab Version 10.2.1 können Sie hohe Verfügbarkeit für die folgenden Dienste und Sicherheitssysteme in der Hadoop-Umgebung auf Cloudera CDH-, Hortonworks HDP- und MapR Hadoop-Distributionen aktivieren:
- •Apache Ranger
- •Apache Ranger KMS
- •Apache Sentry
- •Cloudera Navigator Encrypt
- •HBase
- •Hive Metastore
- •HiveServer2
- •Namensknoten
- •Ressourcenmanager
Hive-Funktionalität in der Hadoop-Umgebung
Dieser Abschnitt beschreibt neue Funktionen für die Hive-Funktionalität in der Hadoop-Umgebung in Version 10.2.1.
Trunkierung der Hive-Tabelle
Ab Version 10.2.1 können Sie externe partitionierte Hive-Tabellen auf allen Laufzeit-Engines kürzen.
Sie können Tabellen in den folgenden Hive-Speicherformaten kürzen:
- •Avro
- •ORC
- •Parquet
- •RCFile
- •Sequenz
- •Text
Sie können Tabellen in den folgenden externen Hive-Tabellenformaten kürzen:
- •Hive auf HDFS
- •Hive auf Amazon S3
- •Hive auf Azure Blob
- •Hive auf WASB
- •Hive auf ADLS
Weitere Informationen zum Trunkieren von Hive-Zielen finden Sie im Kapitel zum Mapping von Zielen in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Pre- und Post-Mapping-SQL-Befehle
Ab Version 10.2.1 können Sie PreSQL- und PostSQL-Befehle mit Hive-Quellen und -Ziele in Mappings konfigurieren, die auf der Spark-Engine laufen.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Importieren aus PowerCenter
Dieser Abschnitt beschreibt den neuen Import von PowerCenter-Funktionen in Version 10.2.1.
Sitzungseigenschaften aus PowerCenter importieren
Ab Version 10.2.1 können Sie Sitzungseigenschaften wie SQL-basierte Overrides in relationalen Quellen und Zielen und sowie Overrides für die Lookup-Transformation aus dem PowerCenter-Repository in das Modellrepository importieren.
Weitere Informationen zum Import aus PowerCenter finden Sie im Kapitel "Importieren aus PowerCenter" im Informatica 10.2.1 Mapping-Handbuch für Developer.
SQL-Parameter
Ab Version 10.2.1 können Sie einen SQL-Parametertyp angeben, um alle SQL-basierten Überschreibungen in das Modellrepository zu importieren. Die restlichen Eigenschaften der Sitzung werden einer Zeichenfolge oder einem entsprechenden Parametertyp zugeordnet.
Weitere Informationen finden Sie im Kapitel "Importieren aus PowerCenter" im Zuordnungshandbuch zu Informatica Developer 10.2.1.
Importieren einer Befehlsaufgabe aus PowerCenter
Ab Version 10.2.1 können Sie eine Befehlstask aus PowerCenter in das Modellrepository importieren.
Weitere Informationen finden Sie im Kapitel "Arbeitsabläufe" im Informatica 10.2.1 Developer-Arbeitsablaufhandbuch.
Intelligentes Strukturmodell
Ab Version 10.2.1 können Sie das intelligente Strukturmodell im Big Data Management nutzen.
- Spark-Engine-Unterstützung für Datenobjekte mit intelligentem Strukturmodell
Sie können ein intelligentes Strukturmodell in ein Amazon S3-, Microsoft Azure Blob- oder ein komplexes Dateidatenobjekt einbinden. Wenn Sie das Datenobjekt zu einem Mapping hinzufügen, das auf der Spark-Engine läuft, können Sie jeden beliebigen Eingangstyp verarbeiten, den das Modell analysieren kann.
Das Datenobjekt kann PDF-Formulare, JSON, Microsoft Excel, Microsoft Word-Tabellen, CSV-, Text- oder XML-Eingabedateien, basierend auf der Datei, die Sie zum Erstellen des Modells verwendet haben, akzeptieren und analysieren.
Intelligentes Strukturmodell in komplexen Datei-, Amazon S3-, und Microsoft Azure Blob-Datenobjekten ist für die technische Vorschau verfügbar. Die Funktion zur technischen Vorschau wird unterstützt, aber nicht garantiert und ist noch nicht produktionsreif. Informatica empfiehlt, diese Funktionen nur in Nicht-Produktionsumgebungen zu verwenden.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Massenerfassung
Mit der Version 10.2.1 können Sie die Massenerfassung zur Erfassung oder Replikation in einer Datenbank oder einem Repository durchführen. Um Massenerfassungsjobs durchzuführen, verwenden Sie das Werkzeug "Massenerfassung" zum Erstellen einer Massenerfassungsspezifikation Sie konfigurieren die Massenerfassungsspezifikation, um Daten aus einer relationalen Datenbank in ein Hive- oder HDFS-Ziel aufzunehmen. Sie können auch Parameter angeben, um die von Ihnen erfassten Daten zu bereinigen.
Eine Massenerfassungsspezifikation ersetzt das manuelle Erstellen und Ausführen von Mappings. Sie können eine Massenerfassungsspezifikation erstellen, die alle Daten auf einmal erfasst.
Weitere Informationen zur Massenerfassung finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Überwachung
In diesem Abschnitt werden die neuen Funktionen für die Überwachung von Big Data Management in Version 10.2.1 erläutert.
Hadoop Clusterüberwachung
Ab Version 10.2.1 können Sie die Menge der Informationen konfigurieren, die in den Anwendungsprotokollen angezeigt werden, die Sie für einen Hadoop-Cluster überwachen.
Die Menge der Informationen in den Anwendungsprotokollen hängt von der Tracing-Ebene ab, die Sie für eine Zuordnung im Developer Tool konfigurieren. Die folgende Tabelle beschreibt die Menge an Informationen, die in den Anwendungsprotokollen für jede Tracing-Ebene angezeigt wird:
Tracing-Level | Meldungen |
|---|
Keiner | Das Protokoll zeigt FATAL-Meldungen an. Zu FATAL-Meldungen gehören nicht behebbare Systemfehler, die bewirken, dass der Dienst beendet wird oder nicht mehr verfügbar ist. |
Kurz | Das Protokoll zeigt FATAL- und ERROR-Code-Meldungen an. Zu ERROR-Meldungen gehören Verbindungsfehler, Fehler beim Speichern oder Abrufen von Metadaten, Dienstfehler. |
Normal | Das Protokoll zeigt die Meldungen FATAL, ERROR und WARNING an. WARNING-Fehler beinhalten wiederherstellbare Systemfehler oder Warnungen. |
Verbose-Initialisierung. | Das Protokoll zeigt die Meldungen FATAL, ERROR, WARNING und INFO an. INFO-Meldungen beinhalten System- und Dienständerungsmeldungen. |
Verbose-Daten. | Das Protokoll zeigt die Meldungen FATAL, ERROR, WARNING, INFO und DEBUG an. DEBUG-Meldungen sind Benutzeranfrageprotokolle. |
Weitere Informationen finden Sie im Kapitel zur Überwachung von Mapping in einer Hadoop-Umgebung im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Spark-Überwachung
Ab Version 10.2.1 lauscht der Spark-Exekutor auf einem Port auf Spark-Ereignisse als Teil der Spark-Überwachungsunterstützung und es ist nicht erforderlich, den SparkMonitoringPort zu konfigurieren.
Der Datenintegrationsdienst verfügt über eine Reihe von verfügbaren Ports und der Spark-Exektuor wählt einen Port aus dem verfügbaren Bereich aus. Im Fehlerfall bleibt die Portverbindung erhalten und Sie müssen den Datenintegrationsdienst nicht neu starten, bevor Sie das Mapping ausführen.
Die benutzerdefinierte Eigenschaft für den Überwachungsport bleibt erhalten. Wenn Sie die Eigenschaft konfigurieren, verwendet der Datenintegrationsdienst den angegebenen Port zum Listening für Spark-Ereignisse.
Bisher konnte mit der benutzerdefinierten Eigenschaft "Datenintegrationsdienst" der Spark-Überwachungsport den Spark-Listenerport konfigurieren. Wenn Sie die Eigenschaft nicht konfiguriert haben, war Spark-Überwachung standardmäßig deaktiviert.
Tez-Überwachung
Ab Version 10.2.1 können Sie die Eigenschaften der Tez-Engine-Überwachung anzeigen. Sie können die Hive-Engine verwenden, um das Mapping auf MapReduce oder Tez auszuführen. Die Tez-Engine kann Jobs auf Hortonworks HDP, Azure HDInsight und Amazon Elastic MapReduce verarbeiten. Um ein Spark-Mapping auf Tez durchzuführen, können Sie jeden der unterstützten Cluster für Tez verwenden.
Im Administrator Tool können Sie auch die Hive-Abfrageeigenschaften für Tez überprüfen, wenn Sie die Hive-Engine überwachen. Im Hive-Sitzungsprotokoll und in Tez können Sie Informationen zu den Tez-Statistiken anzeigen, z. B. DAG-Tracking URL, Vertex-Gesamtzahl und DAG-Fortschritt.
Sie können jede Hive-Abfrage auf der Tez-Engine überwachen. Wenn Sie die Protokollierung für ausführliche Daten oder die ausführliche Initialisierung aktivieren, können Sie die Tez-Engine-Informationen im Administrator Tool oder im Sitzungsprotokoll anzeigen. Sie können auch den Status des Mappings auf der Tez-Engine auf der Registerkarte "Überwachung" im Administrator Tool überwachen.
Weitere Informationen zur Tez-Überwachung finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch und im Hadoop-Integrationshandbuch zu Informatica Big Data Management 10.2.1.
Verarbeitung hierarchischer Daten auf der Spark-Engine
Ab Version 10.2.1 enthält die Spark-Engine die folgenden zusätzlichen Funktionen zur Verarbeitung hierarchischer Daten:
- Map-Datentyp
- Mit dem Map-Datentyp können Sie Kartendaten in komplexen Dateien erzeugen und verarbeiten.
- Komplexe Dateien auf Amazon S3
- Sie können komplexe Datentypen verwenden, um hierarchische Daten in Avro- und Parquet-Dateien auf Amazon S3 zu lesen und zu schreiben. Sie projizieren Spalten als komplexen Datentyp in Lese- und Schreiboperationen für das Datenobjekt.
Weitere Informationen finden Sie im Kapitel "Verarbeitung hierarchischer Daten in der Spark-Engine" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.
Unterstützung der Regelspezifikation auf der Spark-Engine
Ab Version 10.2.1 können Sie ein Mapping durchführen, das zusätzlich zu den Blaze- und Hive-Engines eine Regelspezifikation für die Spark-Engine enthält.
Sie können auch ein Mapping durchführen, das ein Mapplet enthält, das Sie zusätzlich zu den Blaze- und Hive-Engines aus einer Regelspezifikation der Spark-Engine generieren.
Weitere Informationen zu Regelspezifikationen finden Sie im Informatica 10.2.1-Regelspezifikationshandbuch.
Sicherheit
In diesem Abschnitt werden die neuen Funktionen für die Sicherheit von Big Data Management in Version 10.2.1 erläutert.
Cloudera Navigator Verschlüsseln
Ab Version 10.2.1 können Sie mit Cloudera Navigator Encrypt die Daten sichern und eine transparente Verschlüsselung der Daten im Ruhezustand implementieren.
EMR-Dateisystemberechtigung
Ab Version 10.2.1 können Sie die Berechtigung EMR File System (EMRFS) verwenden, um auf Daten in Amazon S3 auf der Spark-Engine zuzugreifen.
IAM-Rollen
Ab Version 10.2.1 können Sie IAM-Rollen für das EMR-Dateisystem zum Lesen und Schreiben von Daten aus dem Cluster auf Amazon S3 in Amazon EMR-Cluster Version 5.10 verwenden.
Kerberos-Authentifizierung
Ab Version 10.2.1 können Sie die Kerberos-Authentifizierung für die folgenden Cluster aktivieren:
- •Amazon EMR
- •Azur HDInsight mit WASB als Lagerung
LDAP-Authentifizierung
Ab Version 10.2.1 können Sie die Authentifizierung über Lightweight Directory Access Protocol (LDAP) für Amazon EMR Cluster Version 5.10 konfigurieren.
Sqoop
Ab Version 10.2.1 können Sie die folgenden neuen Sqoop-Funktionen nutzen:
- Unterstützung für MapR Connector for Teradata
Sie können den MapR Connector for Teradata verwenden, um Daten von der Spark-Engine zu lesen oder in Teradata zu schreiben. MapR Connector for Teradata ist ein spezieller Sqoop-Teradata-Connector für Hadoop (TDCH). Wenn Sie Sqoop-Mappings auf der Spark-Engine ausführen, ruft der Datenintegrationsdienst standardmäßig den Connector auf.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
- Optimieren von Sqoop-Pass-Through-Mappings für die Spark-Engine
Wenn Sie ein Sqoop-Pass-Through-Mapping auf der Spark-Engine durchführen, optimiert der Datenintegrationsdienst die Mapping-Leistung in den folgenden Szenarien:
- - Sie lesen Daten aus einer Sqoop-Quelle und schreiben Daten in ein Hive-Ziel, das das Textformat verwendet.
- - Sie lesen Daten aus einer Sqoop-Quelle und schreiben Daten in ein HDFS-Ziel, das das Flat-, Avro- oder Parquet-Format verwendet.
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
- Spark-Engine-Unterstützung für Hochverfügbarkeit und Sicherheitsmerkmale
Sqoop akzeptiert alle Hochverfügbarkeits- und Sicherheitsfunktionen wie Kerberos Keytab-Login und KMS-Verschlüsselung, die die Spark-Engine unterstützt.
Weitere Informationen finden Sie im Kapitel "Datenintegrationsdienst" im Anwendungsdienst-Handbuch zu Informatica 10.2.1 und im Kapitel "infacmd dis-Befehlsreferenz" im Informatica 10.2.1 Befehlsreferenzhandbuch.
- Unterstützung der Spark-Engine für Teradata-Datenobjekte
Wenn Sie ein Teradata-Datenobjekt verwenden und ein Mapping auf der Spark-Engine und auf einem Hortonworks- oder Cloudera-Cluster ausführen, führt der Datenintegrationsdienst das Mapping über Sqoop aus.
Wenn Sie einen Hortonworks-Cluster verwenden, ruft der Datenintegrationsdienst den Hortonworks Connector for Teradata zur Laufzeit auf. Wenn Sie einen Cloudera-Cluster verwenden, ruft der Datenintegrationsdienst zur Laufzeit den Cloudera Connector Powered by Teradata auf.
Weitere Informationen finden Sie im Informatica PowerExchange for Teradata Parallel Transporter API 10.2.1-Benutzerhandbuch.
Umwandlungsunterstützung in der Hadoop-Umgebung
Dieser Abschnitt beschreibt neue Umwandlungsfunktionen in der Hadoop-Umgebung in Version 10.2.1.
Umwandlungsunterstützung für die Spark-Engine
In diesem Abschnitt werden neue Umwandlungsfunktionen der Spark-Engine in Version 10.2.1 erläutert.
Umwandlungsunterstützung
Ab Version 10.2.1 werden die folgenden Umwandlungen für die Spark-Engine unterstützt:
- •Groß-/Kleinschreibungsumwandler
- •Klassifizierer
- •Vergleich
- •Schlüsselgenerator
- •Beschriftung
- •Zusammenführung
- •Parser
- •Python
- •Standardisierer
- •Gewichteter Durchschnitt
Ab Version 10.2.1 werden die folgenden Umwandlungen mit Einschränkungen für die Spark-Engine unterstützt:
- •Adressvalidierer
- •Konsolidierung
- •Entscheidung
- •Match
- •Sequenzgenerator
Ab Version 10.2.1 gilt für die folgende Umwandlung zusätzliche Unterstützung für die Spark-Engine:
- •Java Unterstützt komplexe Datentypen wie array, map und struct zur Verarbeitung hierarchischer Daten.
Weitere Informationen zur Umwandlungsunterstützung finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.
Weitere Informationen zu Umwandlungsvorgängen finden Sie im Informatica 10.2.1 Developer-Umwandlungshandbuch.
Python-Umwandlung
Ab Version 10.2.1 können Sie im Developer Tool eine Python-Umwandlung erstellen. Verwenden Sie die Python-Umwandlung, um Python-Code in einem Mapping auszuführen, das auf der Spark-Engine läuft.
Sie können eine Python-Umwandlung verwenden, um ein Maschinenmodell auf den Daten zu implementieren, die Sie durch die Umwandlung übergeben. Verwenden Sie beispielsweise die Python-Umwandlung, um Python-Code zu schreiben, der ein vortrainiertes Modell lädt. Mit dem vorbereiteten Modell können Sie Eingabedaten klassifizieren oder Prognosen erstellen.
HINWEIS: Die Python-Umwandlung steht für die technische Vorschau zur Verfügung. Die Funktion zur technischen Vorschau wird unterstützt, ist aber noch nicht produktionsreif. Informatica empfiehlt, diese Funktion nur in Nicht-Produktionsumgebungen zu verwenden.
Weitere Informationen finden Sie im Kapitel "Python-Umwandlung" im Informatica 10.2.1 Developer-Umwandlungshandbuch.
Updatestrategie-Umwandlung
Ab Version 10.2.1 können Sie Hive-MERGE-Anweisungen für Mappings, die auf der Spark-Engine laufen, um Update-Strategie-Aufgaben durchzuführen. Der Einsatz von MERGE in Abfragen ist in der Regel effizienter und steigert der Leistung.
Hive-MERGE-Anweisungen werden für die folgenden Hadoop-Distributionen unterstützt:
- •Amazon EMR 5.10
- •Azure HDInsight 3.6
- •Hortonworks HDP 2.6
Um Hive MERGE zu verwenden, wählen Sie die Option in den erweiterten Eigenschaften der Update-Strategieumwandlung.
Bisher verwendete der Datenintegrationsdienst INSERT-, UPDATE- und DELETE-Anweisungen, um diese Aufgabe mit einer beliebigen Laufzeit-Engine durchzuführen. Die Update-Strategieumwandlung verwendet diese Anweisungen weiterhin in den folgenden Szenarien:
- •Sie wählen nicht die Hive MERGE-Option.
- •Mappings laufen auf der Hive- oder Blaze-Maschine.
- •Wenn die Hadoop-Distribution Hive MERGE nicht unterstützt.
Weitere Informationen zur Verwendung einer MERGE-Anweisung in Update-Strategieumwandlungen finden Sie im Kapitel "Update-Strategieumwandlung" im Informatica Big Data Management 10.2.1-Benutzerhandbuch.
Umwandlungsunterstützung für die Blaze-Engine
In diesem Abschnitt werden neue Umwandlungsfunktionen der Blaze-Engine in Version 10.2.1 erläutert.
Aggregat-Umwandlung
Ab Version 10.2.1 verwendet der Daten-Cache für die Aggregat-Umwandlung eine variable Länge, um Binär- und String-Datentypen auf der Blaze-Engine zu speichern. Variable Länge reduziert die Datenmenge, die der Daten-Cache speichert, wenn die Aggregat-Umwandlung läuft.
Wenn Daten, die die Aggregat-Umwandlung durchlaufen, mit variabler Länge im Daten-Cache abgelegt werden, wird die Aggregat-Umwandlung für die Verwendung von sortierten Eingaben optimiert und eine Sorter-Transformation vor der Aggregat-Umwandlung in das Laufzeit-Mapping eingefügt.
Weitere Informationen finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.
Vergleichsumwandlung
Ab Version 10.2.1 können Sie ein Mapping ausführen, das eine Match-Umwandlung enthält, die Sie für die Identitätsanalyse auf der Blaze-Engine konfigurieren.
Konfigurieren Sie die Match-Umwandlung, um die Identitätsindexdaten in Cache-Dateien zu schreiben. Das Mapping schlägt fehl, wenn Sie die Match-Umwandlung so konfigurieren, dass die Indexdaten in Datenbanktabellen geschrieben werden.
Weitere Informationen zur Umwandlungsunterstützung finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.
Rang-Umwandlung
Ab Version 10.2.1 verwendet der Daten-Cache für die Rangumwandlung eine variable Länge, um Binär- und String-Datentypen auf der Blaze-Engine zu speichern. Variable Länge reduziert die Datenmenge, die der Daten-Cache speichert, wenn die Rangumwandlung läuft.
Wenn Daten, die die Rangumwandlung durchlaufen, mit variabler Länge im Daten-Cache abgelegt werden, wird die Rangumwandlung für die Verwendung von sortierten Eingaben optimiert und eine Sorter-Transformation vor der Rangumwandlung in das Laufzeit-Mapping eingefügt.
Weitere Informationen finden Sie im Kapitel "Mapping-Umwandlungen in einer Hadoop-Umgebung" im Benutzerhandbuch zu Informatica Big Data Management 10.2.1.
Weitere Informationen zu Umwandlungsvorgängen finden Sie im Informatica 10.2.1 Developer-Umwandlungshandbuch.