Fallstudie: Verarbeiten von Unicode UTF-16LE Daten

Diese Fallstudie beschreibt, wie Sie eine Umgebung zur Verarbeitung von Unicode UTF-16LE Multibyte-Daten einrichten können. Wenn Sie Daten westeuropäischer Sprachen, Sprachen aus dem mittleren Osten oder Asien bzw. anderer im UTF-16LE Zeichensatz verschlüsselter Sprachen zu verarbeiten haben, werden Sie Ihre Umgebung möglicherweise so konfigurieren. In diesem Beispiel wird eine Umgebung beschrieben, die Daten in deutscher und japanischer Sprache verarbeitet.

In dieser Fallstudie besteht die UTF-16LE Umgebung aus folgenden Elementen:

UTF-16LE Umgebung konfigurieren

Verwenden Sie die folgenden Richtlinien, wenn Sie eine Umgebung ähnlich wie in diesem Beispiel für die UTF-16LE Datenverarbeitung konfigurieren möchten:

Schritt 1. Stellen Sie die Kompatibilität von PowerCenter Repository Database Client und Server sicher

Der Datenbank-Client und Server, die das PowerCenter Repository hosten, müssen in der Lage sein, ohne Datenverlust zu kommunizieren.

Das PowerCenter Repository befindet sich in einer Oracle-Datenbank. Stellen Sie die Umgebungsvariable NLS_LANG auf das Gebietsschema (Sprache, Region und Zeichensatz) ein, das Datenbank-Client und Server bei der Anmeldung verwenden sollen.

Standardmäßig konfiguriert Oracle NLS_LANG für US-Englisch, das US-Territorium, und den 7-Bit ASCII-Zeichensatz:

Ändern Sie die Standard-Konfiguration, um UTF-16LE Daten mit dem Oracle UTF8-Zeichensatz in das PowerCenter Repository zu schreiben. Beispiel:

Weitere Informationen zum Überprüfen und Ändern der PowerCenter Repository Database-Codepage finden Sie in Ihrer Datenbank-Dokumentation.

Schritt 2. Stellen Sie die PowerCenter Codepage-Kompatibilität sicher

PowerCenter Integration Service und PowerCenter-Client-Codepages müssen Teilmengen der PowerCenter Repository Codepage sein. Da der PowerCenter-Client und PowerCenter Integration Service jeweils die System-Codepages des Computers verwenden, auf denen sie installiert sind, müssen Sie überprüfen, ob die System-Codepages Teilmengen der PowerCenter Repository Codepage sind.

In diesem Fall wurden der PowerCenter-Client auf Windows-Systemen in der Schweiz gekauft. Daher sind die System-Codepages für die PowerCenter-Client-Computer auf MS Windows Latin1 eingestellt. Um System- und Bildschirmsprachen zu überprüfen, öffnen Sie das Dialogfeld "Regionale Einstellungen" in der Windows-Systemsteuerung.

Der PowerCenter Integration Service ist auf einem UNIX-Rechner installiert. Die Standard-Codepage für das UNIX-Betriebssysteme ist ASCII. In dieser Umgebung muss der UNIX-System-Zeichensatz auf UTF-16LE geändert werden.

Schritt 3. Konfigurieren des PowerCenter Integration Service für den Unicode-Datenverschiebungsmodus

Sie müssen den PowerCenter Integration Service für die Verarbeitung von UTF-16LE Daten konfigurieren. Im Administrator Tool setzen Sie den Datenverschiebungsmodus für den PowerCenter Integration Service auf Unicode. Der PowerCenter Integration Service ordnet bei der Verarbeitung von Multibyte-Zeichen jedem Zeichen ein zusätzliches Byte zu.

Schritt 4. Stellen Sie die Sitzungs-Codepage-Kompatibilität sicher

Wenn Sie einen PowerCenter-Arbeitsablauf im Unicode-Datenverschiebungsmodus ausführen, erzwingt der PowerCenter Integration Service Quell- und Target-Codepage-Beziehungen. Um genaue Datenumwandlungen zu gewährleisten, muss die Quell-Codepage eine Teilmenge der Target-Codepage sein.

In diesem Fall enthält die Umgebung eine Quelldatenbank mit deutschen und japanischen Daten. Wenn Sie eine Quelldatenbank-Verbindung im PowerCenter Workflow Manager konfigurieren, muss die Codepage für die Verbindung mit der Quelldatenbank-Codepage identisch sein. Sie können jede Codepage für die Quelldatenbank verwenden.

Da die Target-Codepage eine Obermenge der Quell-Codepages sein muss, müssen Sie für die Target-Datenbank-Verbindungen UTF-16LE oder Einfachdateien verwenden. Um Datenkonsistenz zu gewährleisten, muss die konfigurierte Target-Codepage der Target-Datenbank oder Einfachdatei-Systemcodepage entsprechen.

Wenn Sie den PowerCenter Integration Service für entspannte Codepage-Validierung konfigurieren, entfernt der PowerCenter Integration Service Einschränkungen bei der Kompatibilität von Quell- und Target-Codepages. Sie können für Quell- und Targetdaten eine beliebige unterstützte Codepage auswählen. Sie müssen jedoch sicherstellen, dass die Targets nur Zeichendaten erhalten, die in der Target-Codepage codiert wurden.

Schritt 5. Verifizieren der Codepage-Kompatibilität für Lookup-Datenbank und Datenbank der gespeicherten Prozedur

Die Codepages der Lookup-Datenbank und der Datenbank für die gespeicherten Prozeduren müssen eine Obermenge der Quell-Codepages und eine Untermenge der Target-Codepages sein. In diesem Fall müssen alle Verbindungen zu Lookup- und Gespeicherte-Prozeduren-Datenbanken eine Codepage verwenden, die mit UTF-16LE kompatibel ist.

Schritt 6. Kompatibilität externer Prozedur oder benutzerdefinierter Umwandlungsprozedur prüfen

Die externen Prozedur und die benutzerdefinierten Umwandlungsprozeduren müssen die Zeichendaten aus den Quell-Codepages verarbeiten können, und sie müssen die Zeichen übergeben, die in den Target-Codepages kompatibel sind.

In diesem Fall müssen die externe Prozedur und die benutzerdefinierten Umwandlungen die deutschen und japanischen Daten aus den Quellen verarbeiten können. Der PowerCenter Integration Service übergibt die Daten an Prozeduren jedoch in UCS-2. Aus diesem Grund müssen alle Daten, die von einer externen Prozedur oder von benutzerdefinierten Umwandlungen verarbeitet werden, dem Zeichensatz UCS-2 entsprechen.

Schritt 7. Konfigurieren der Sitzungs-Sortierreihenfolge

Wenn Sie den PowerCenter Integration Service im Unicode-Modus ausführen, verwendet er für alle Sitzungen die festgelegte Sortierreihenfolge. Standardmäßig sind die Sitzungen für eine binäre Sortierreihenfolge konfiguriert.

Um deutsche und japanische Daten zu sortieren, wenn der PowerCenter Integration Service UTF-16LE verwendet, empfiehlt es sich die binäre Sortierreihenfolge beizubehalten.