Big Data Management
In diesem Abschnitt werden Änderungen an Big Data in Version 10.2.2 erläutert.
Hive-Verbindung
Ab Version 10.2.2 werden die folgenden Hive-Verbindungseigenschaften umbenannt:
- •Die Eigenschaft „Differenzierte SQL-Autorisierung berücksichtigen“ wird umbenannt in „Differenzierte Autorisierung“.
- •Die Eigenschaft „Benutzername“ wird umbenannt in „LDAP-Benutzername“.
In der folgenden Tabelle werden die Eigenschaften beschrieben:
Eigenschaft | Beschreibung |
|---|
Differenzierte Autorisierung | Wenn Sie die Option zum Berücksichtigen der differenzierten Autorisierung in einer Hive-Quelle auswählen, wird beim Mapping Folgendes berücksichtigt: - - Einschränkungen auf Zeilen- und Spaltenebene. Anwendung auf Hadoop-Cluster, in denen die Sicherheitsmodi „Sentry“ oder „Ranger“ aktiviert sind.
- - Datenmaskierungsregeln. Anwendung auf festgelegte Maskierungsregeln bei Spalten, die sensible Daten per Dynamic Data Masking enthalten.
Wenn Sie die Option nicht auswählen, ignorieren die Blaze- und die Spark-Engine die Einschränkungen und Maskierungsregeln, sodass die Ergebnisse eingeschränkte oder sensible Daten enthalten. |
LDAP-Benutzername | LDAP-Benutzername, den der Datenintegrationsdienst zum Ausführen von Mappings in einem Hadoop-Cluster verwendet. Der Benutzername richtet sich nach der JDBC-Verbindungszeichenfolge, die Sie in der Metadaten- oder Datenzugriffs-Verbindungszeichenfolge für die native Umgebung angegeben haben. Wenn der Hadoop-Cluster Kerberos-Authentifizierung verwendet, müssen der Prinzipalname der JDBC-Verbindungszeichenfolge und der Benutzername identisch sein. Andernfalls hängt der Benutzername vom Verhalten des JDBC-Treibers ab. Mit dem Hive-JDBC-Treiber können Sie einen Benutzernamen auf viele Arten angeben. Der Benutzername kann zudem Teil der JDBC-URL werden. Wenn der Hadoop-Cluster keine Kerberos-Authentifizierung verwendet, hängt der Benutzername vom Verhalten des JDBC-Treibers ab. Wenn Sie keinen Benutzernamen eingeben, authentifiziert der Hadoop-Cluster Jobs basierend auf den folgenden Kriterien: - - Der Hadoop-Cluster verwendet keine Kerberos-Authentifizierung. Er authentifiziert Jobs basierend auf dem Benutzernamen des Betriebssystemprofils des Computers, auf dem der Datenintegrationsdienst ausgeführt wird.
- - Der Hadoop-Cluster verwendet Kerberos-Authentifizierung. Er authentifiziert Jobs basierend auf dem SPN des Datenintegrationsdiensts. Der LDAP-Benutzername wird ignoriert.
|
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.2-Benutzerhandbuch.
Massenerfassung
Ab Version 10.2.2 werden implementierte Massenerfassungsspezifikationen auf der Spark-Engine ausgeführt. Aktualisierte Massenerfassungsspezifikationen, die vor Version 10.2.2 implementiert wurden, werden bis zur Neuimplementierung auf der Blaze- und Spark-Engine ausgeführt.
Weitere Informationen finden Sie im Massenerfassungshandbuch zu Informatica Big Data Management 10.2.2.
Spark-Überwachung
Ab Version 10.2.2 ist die Spark-Überwachung standardmäßig aktiviert.
Zuvor war die Spark-Überwachung standardmäßig deaktiviert.
Weitere Informationen zur Spark-Überwachung finden Sie im Informatica Big Data Management 10.2.2-Benutzerhandbuch.
Sqoop
Ab Version 10.2.2 gelten folgende Änderungen für Sqoop:
- •Zum Speichern von temporären Dateien für Sqoop-Jobs können Sie einen Dateipfad im Spark-Staging-Verzeichnis der Hadoop-Verbindung festlegen. Wenn die Spark-Engine Sqoop-Jobs ausführt, erstellt der Datenintegrationsdienst zum Speichern temporärer Dateien innerhalb des Spark-Staging-Verzeichnisses ein Sqoop-Staging-Verzeichnis: <Spark-Staging-Verzeichnis>/sqoop_staging
Bisher war das Sqoop-Staging-Verzeichnis hartkodiert, und der Datenintegrationsdienst nutzte das folgende Staging-Verzeichnis: /tmp/sqoop_staging
Weitere Informationen finden Sie im Informatica Big Data Management 10.2.2-Benutzerhandbuch.
- •Sqoop-Mappings auf der Spark-Engine verwenden das zum Informatica-Installationsprogramm gehörende OpenJDK (AzulJDK). Sie müssen die Eigenschaft JDK-Basisverzeichnis für den Datenintegrationsdienst nicht mehr angeben.
Bisher haben Sie, um Sqoop-Mappings auf der Spark-Engine ausführen zu können, das Java Development Kit (JDK) auf dem Computer installiert, auf dem der Datenintegrationsdienst läuft. Anschließend haben Sie bei der Eigenschaft JDK-Basisverzeichnis unter den Datenintegrationsdienst-Ausführungsoptionen in Informatica Administrator den Speicherort des JDK-Installationsverzeichnisses angegeben.
Umwandlungen in der Hadoop-Umgebung
In diesem Abschnitt werden Änderungen bei Umwandlungen in der Hadoop-Umgebung in Version 10.2.2 beschrieben.
Python-Umwandlung
Ab Version 10.2.2 können Daten bei der Python-Umwandlung auf der Spark-Engine im Vergleich zur Python-Umwandlung in Version 10.2.1 effizienter verarbeitet werden. Außerdem ist es für die Python-Umwandlung nicht erforderlich, Jep zu installieren, und zum Ausführen der Umwandlung können Sie jede Version von Python verwenden.
Zuvor unterstützte die Python-Umwandlung nur spezifische Versionen von Python, die mit Jep kompatibel waren.
HINWEIS: Die Verbesserungen stehen nur für Big Data Management zur Verfügung.
Informationen zur Installation von Python finden Sie im Informatica Big Data Management 10.2.2-Integrationshandbuch.
Weitere Informationen zur Python-Umwandlung finden Sie im Kapitel „Python-Umwandlung“ im Informatica 10.2.2 Developer-Umwandlungshandbuch.
Schreibumwandlung
Ab Version 10.2.2 ist die erweiterte Eigenschaft zum Erstellen oder Ersetzen von Zieltabellen bei einer Schreibumwandlung für relationale Datenobjekte sowie Netezza- und Teradata-Datenobjekte umbenannt in Zielschemastrategie.
Wenn Sie eine Schreibumwandlung konfigurieren, können Sie aus den folgenden Zielschemastrategie-Optionen für das Zieldatenobjekt wählen:
- •RETAIN – vorhandenes Zielschema beibehalten. Der Datenintegrationsdienst behält das vorhandene Zielschema bei.
- •CREATE – Tabelle zur Laufzeit erstellen oder ersetzen. Der Datenintegrationsdienst entfernt die Zieltabelle zur Laufzeit und ersetzt sie durch eine Tabelle basierend auf einem von Ihnen angegebenen Datenobjekt.
- •Parameter zuweisen. Sie legen die Optionen für die Zielschemastrategie als Parameterwert fest.
Bisher haben Sie die erweiterte Eigenschaft zum Erstellen oder Ersetzen von Zieltabellen aktiviert. Daraufhin entfernte der Datenintegrationsdienst die Zieltabelle zur Laufzeit und ersetzte sie durch eine Tabelle basierend auf einer von Ihnen angegebenen Zieltabelle. Wenn Sie die erweiterte Eigenschaft zum Erstellen oder Ersetzen von Zieltabellen nicht aktivierten, behielt der Datenintegrationsdienst das vorhandene Schema für die Zieltabelle bei.
Bei vorhandenen Mappings mit aktivierter Eigenschaft zum Erstellen oder Ersetzen von Zieltabellen ist bei der Eigenschaft Zielschemastrategie nach dem Upgrade auf Version 10.2.2 standardmäßig die Option CREATE – Tabelle zur Laufzeit erstellen oder ersetzen aktiviert. Bei Mappings mit deaktivierter Option zum Erstellen oder Ersetzen von Zieltabellen ist nach dem Upgrade die v-Eigenschaft für die Option RETAIN – vorhandenes Zielschema beibehalten aktiviert. Wenn nach dem Upgrade nicht die korrekte Zielschemastrategie-Option ausgewählt ist, müssen Sie die erforderliche Option manuell in der Liste Zielschemastrategie auswählen und anschließend das Mapping ausführen.
Weitere Informationen zum Konfigurieren der Zielschemastrategie finden Sie im Kapitel „Schreibumwandlung“ des Informatica-Umwandlungshandbuchs sowie im Abschnitt zu dynamischen Mappings des Mapping-Handbuchs zu Informatica Developer.