Administratorhandbuch > Informationen zur Globalisierung > Globalisierung - Übersicht

Globalisierung - Übersicht

Informatica ist in der Lage, Daten in verschiedenen Sprachen zu verarbeiten. Einige Sprachen erfordern Einzelbytedaten, während andere Mehrbytedaten benötigen. Für die korrekte Datenverarbeitung in Informatica müssen Sie folgende Parameter einrichten:

•Gebietsschema Bei Informatica müssen die Einstellungen für das Gebietsschema auf Computern, die auf Informatica-Anwendungen zugreifen, mit den copages in der Domäne kompatibel sein. Es kann vorkommen, dass Sie die Einstellungen für das Giebietsschema ändern müssen. Das Gebietsschema gibt die Sprache an, das Territorium, die Zeichensatz-Verschlüsselung und die Sortierreihenfolge.
•Datenverschiebungsmodus Der PowerCenter Integration Service kan Einzelbyte- oder Multibytedaten verarbeiten und sie in Targets hineinschreiben. Zur Verarbeitung von Einzelbyte-Daten ist der ASCII-Datenverschiebungsmodus vorgesehen. Mehrbytedaten erfordern den Unicode-Datenverschiebungsmodus.
•Codepages Codepages enthalten die Verschlüsselung für die Angabe von Zeichen in einem Set aus einer oder mehreren Sprachen. Sie wählen eine Codepage basierend auf dem Typ der Zeichendaten, die Sie verarbeiten möchten. Um die präzise Datenverschiebung zu gewährleisten, müssen Sie dafür sorgen, dass die Codepages untereinander für die Informatica- und die Umgebungskomponenten kompatibel sind. Anhand der Codepages wird zwischen US-ASCII (7-Bit-ASCII-), ISO 8859-1 (8-Bit-ASCII-) und Multibyte-Zeichen unterschieden.

Damit die Daten Ihre Umgebung präzise passieren, müssen folgende Komponenten aufeinander aabgestimmt sein:

•Codepage der Domänenkonfigurationsdatenbank
•Die Gebietsschema-Einstellungen und die Codepage des Administrator Tools
•Der Datenverschiebungsmodus für den PowerCenter Integration Service
•Die Codepage für jeden PowerCenter Integration Service Prozess
•Codepage des PowerCenter Client
•PowerCenter Repository Codepage
•Die Codepages der Quell- und der Target-Datenbank
•Codepage für Metadata Manager-Repository.

Sie können den PowerCenter Integration Service für RELAX-Validierung der Codepages konfigurieren. Bei Relax-Validierung sind die Einschränkungen für Quell- und Target-Codepages aufgehoben.

Unicode

Der Unicode-Standard ist die Arbeit des Unicode-Konsortiums, einem internationalen Gremium, das den Austausch von Daten in allen Sprachen fördert. Der Unicode-Standard wurde entwickelt, um jede beliebige Sprache zu unterstützen, gleich wie viele Bytes jedes Zeichen in dieser Sprache benötigen mag. Derzeit unterstützt er alle gängigen Sprachen und bietet eingeschränkte Unterstützung für andere, weniger verbreitete Sprachen. Das Unicode-Konsortium erweitert den Unicode-Standard kontinuierlich mit neuen Zeichencodierungen. Weitere Informationen zum Unicode-Standard finden Sie unter http://www.unicode.org.

Der Unicode-Standard umfasst mehrere Zeichensätze. Informatica nutzt die folgenden Unicode-Standards:

•UCS-2 (Universal Character Set, double-byte). Ein Zeichensatz, bei dem jedes verwendete Zeichen zwei Byte nutzt.
•UTF-16LE (Unicode Transformation Format) Ein Codierungsformat, bei dem jedes Zeichen zwischen einem und vier Byte nutzen kann.
•UTF-16 (Unicode Transformation Format) Ein Codierungsformat, bei dem jedes Zeichen zwischen zwei und vier Byte nutzen kann.
•UTF-32 (Unicode Transformation Format) Ein Codierungsformat, bei dem jedes Zeichen vier Byte verwendet.
•GB18030 Ein Unicode-Codierungsformat, das von der chinesischen Regierung definiert wurde, bei dem jedes Zeichen zwischen einem und vier Byte nutzen kann.

Informatica ist eine Unicode-Anwendung. PowerCenter Client, PowerCenter Integration Service und Data Integration Service nutzen intern UCS-2. Der PowerCenter Client konvertiert Benutzereingaben von einer beliebigen Sprache in UCS-2 und wandelt sie vor dem Schreiben in das PowerCenter-Repository von UCS-2 um. Der PowerCenter Integration Service und der Data Integration Service konvertieren die Quelldaten vor der Verarbeitung in UCS-2 und wandelt sie nach der Verarbeitung von UCS-2 um. PowerCenter Client, Model Repository, PowerCenter Integration Service und Data Integration Service unterstützen UTF-16LE. Sie können mit Informatica Daten in einer beliebigen Sprache verarbeiten.

Mit einem Unicode PowerCenter Repository arbeiten

Die PowerCenter Repository-Codepage ist die Codepage der Daten im PowerCenter Repository. Sie wählen die PowerCenter Repository-Codepage aus, wenn Sie ein PowerCenter Repository erstellen oder aktualisieren. Wenn die PowerCenter Repository-Codepage UTF-16LE ist, können Sie ein PowerCenter Repository erstellen, das die Codepage UTF-16LE verwendet.

Die Domänenkonfigurationsdatenbank verwendet die Codepage UTF-16LE. Wenn Sie Metadaten in mehreren Sprachen, wie Chinesisch, Japanisch und Arabisch speichern möchten, müssen Sie die Codepage UTF-16LE für alle Dienste in dieser Domäne verwenden.

Der Service Manager synchronisiert die Liste der Benutzer in der Domäne mit der Liste der Benutzer und Gruppen in allen Anwendungsdiensten Wenn ein Benutzername in der Domäne Zeichen enthält, die die Codeseite des Anwendungsdienstes nicht erkennt, werden diese Zeichen nicht ordnungsgemäß umgewandelt, was zu Inkonsistenzen führt.

Verwenden Sie die folgenden Richtlinien, wenn Sie UTF-16LE als PowerCenter Repository-Codepage benutzen:

•Die Datenbankcodepage des PowerCenter Repository muss ebenfalls UTF-16LE sein.
•Die PowerCenter Repository-Codepage muss eine Obermenge der Codepages des PowerCenter Client und des PowerCenter Integration Service-Prozesses sein.
•In den UCS-2-Zeichensatz können Sie jedes beliebige Zeichen eingeben. Zum Beispiel: Sie können deutsche, chinesische und englische Metadaten in einem UTF-16LE-fähigen PowerCenter Repository speichern.
•Installieren Sie die Sprachen und Schriftarten auf der Maschine des PowerCenter Client. Wenn Sie ein UTF-16LE PowerCenter Repository verwenden, möchten Sie die Maschinen des PowerCenter Client eventuell befähigen, mehrere Sprachen anzuzeigen. Standardmäßig zeigen die PowerCenter Clients den Text in dem Sprachsatz der Gebietsschemaeinstellungen an. Verwenden Sie in der Systemsteuerung von Windows die Einstellungen unter "Region und Sprache", um den Maschinen der PowerCenter Clients Sprachgruppen hinzuzufügen.
•Sie können den Windows Input Method Editor (IME) dazu verwenden, Multibyte-Zeichen aus jeder beliebigen Sprache einzugeben, ohne jeweils eine Windows-Version für diese spezielle Sprache ausführen zu müssen.
•Wählen Sie für den Prozess des PowerCenter Integration Service eine Codepage aus, die alle Metadaten des PowerCenter Repository korrekt verarbeiten kann. Die Codepage des Prozesses des PowerCenter Integration Service muss eine Untermenge der PowerCenter Repository-Codepage sein. Wenn der PowerCenter Integration Service mehrere Dienstprozesse hat, stellen Sie sicher, dass die Codepages für alle Prozesse des PowerCenter Integration Service eine Untermenge der PowerCenter Repository-Codepage sind. Wenn Sie den Prozess des PowerCenter Integration Service unter Windows ausführen, muss die Codepage des Prozesses des PowerCenter Integration Service dieselbe sein wie die Codepage für die Gebietsschemaeinstellungen des Systems oder des Benutzer. Wenn Sie den Prozess des PowerCenter Integration Service unter UNIX ausführen, verwenden Sie die Codepage UTF-16LE für den Prozess des PowerCenter Integration Service.