Caso práctico: Procesamiento de datos UTF-16LE de Unicode
En este caso práctico, se describe cómo se podría configurar un entorno que procese datos multibyte UTF-16LE de Unicode. Puede que desee configurar el entorno de esta forma si necesita procesar datos de idiomas de Europa Occidental, Oriente Medio, Asia o cualquier otro idioma cuyos caracteres estén codificados con el juego de caracteres UTF-16LE. En este ejemplo, se describe un entorno que procesa datos en alemán y japonés.
Para este caso práctico, el entorno UTF-16LE está compuesto por los siguientes elementos:
Cómo configurar el entorno UTF-16LE
Utilice las siguientes directrices para configurar un entorno similar a este caso de estudio para el procesamiento de datos UTF-16LE:
- 1. Compruebe la compatibilidad de páginas de códigos entre el cliente de base de datos del repositorio de PowerCenter y el servidor de base de datos.
- 2. Compruebe la compatibilidad de páginas de códigos entre el cliente de PowerCenter y el repositorio de PowerCenter, y entre el servicio de integración de PowerCenter y el repositorio de PowerCenter.
- 3. Configure el servicio de integración de PowerCenter para el modo de movimiento de datos Unicode.
- 4. Compruebe la compatibilidad de las páginas de códigos de la sesión.
- 5. Compruebe la compatibilidad de las páginas de códigos de la base de datos del procedimiento almacenado y de búsqueda.
- 6. Compruebe la compatibilidad de las páginas de códigos del procedimiento de transformación personalizado o del procedimiento externo.
- 7. Configure el orden de clasificación de la sesión.
Paso 1. Verifique la compatibilidad entre el cliente de base de datos del repositorio de PowerCenter y la página de códigos del servidor
El cliente de base de datos y el servidor que alberga el repositorio de PowerCenter deben poder comunicarse sin pérdida de datos.
El repositorio de PowerCenter reside en una base de datos Oracle. Con Orable, puede utilizar NLS_LANG para la configuración regional (idioma, región y conjunto de caracteres) que desea que el servidor y el cliente de la base de datos utilicen en su inicio de sesión:
NLS_LANG = LANGUAGE_TERRITORY.CHARACTERSET
De manera predeterminada, Oracle configura NLS_LANG para idioma Inglés de EE. UU., la región EE. UU. y el conjunto de caracteres ASCII de 7-bits:
NLS_LANG = AMERICAN_AMERICA.US7ASCII
Cambie la configuración predeterminada para que escriba datos UTF-16LE en el repositorio de PowerCenter utilizando el conjunto de caracteres UTF 8 de Oracle. Por ejemplo:
NLS_LANG = AMERICAN_AMERICA.UTF8
Para más información sobre cómo verificar y modificar la página de códigos de la base de datos del repositorio de PowerCenter, consulte la documentación de su base de datos.
Paso 2. Compruebe la compatibilidad de las páginas de códigos de PowerCenter
Las páginas de códigos del servicio de integración de PowerCenter y del cliente de PowerCenter deben ser subconjuntos de la página de códigos del repositorio de PowerCenter. Como tanto el cliente de PowerCenter como el servicio de integración de PowerCenter utilizan páginas de códigos del sistema de los equipos donde están instalados, debe comprobar que las páginas de códigos del sistema sean subconjuntos de la página de códigos del repositorio de PowerCenter.
En este caso, el cliente de PowerCenter de los sistemas Windows fue adquirido en Suiza. Por lo tanto, las páginas de códigos del sistema para los equipos del cliente de PowerCenter se configuran de manera predeterminada como Latín 1 para MS Windows. Para verificar la salida del sistema y los idiomas para mostrar, abra el cuadro de diálogo Opciones regionales en el Panel de control de Windows.
El servicio de integración de PowerCenter está instalado en un equipo UNIX. La página de códigos predeterminada para los sistemas operativos UNIX es ASCII. En este entorno, el conjunto de caracteres del sistema UNIX se debe cambiar a UTF-16LE.
Paso 3. Configure el servicio de integración de PowerCenter para el modo de movimiento de datos Unicode
Debe configurar el servicio de integración de PowerCenter para que procese datos UTF-16LE. En Administrator Tool, defina el modo de movimiento de datos como Unicode para el servicio de integración de PowerCenter. El servicio de integración de PowerCenter le asignará un byte adicional a cada carácter al procesar datos multibyte.
Paso 4. Compruebe la compatibilidad de la página de códigos de la sesión
Cuando ejecute un flujo de trabajo de PowerCenter en el modo de movimiento de datos Unicode, el servicio de integración de datos de PowerCenter forzará la relación de páginas de códigos de origen y destino. Para garantizar una conversión de datos correcta, la página de códigos de origen debe ser un subconjunto de la página de códigos de destino.
En este caso, el entorno contiene una base de datos de origen con datos en alemán y japonés. Cuando configure una conexión con la base de datos de origen en el administrador de flujos de trabajo de PowerCenter, la página de códigos de la conexión debe ser idéntica a la página de códigos de la base de datos de origen. Puede utilizar cualquier página de códigos para la base de datos de origen.
Dado que la página de códigos de destino debe ser un superconjunto de la página de códigos de origen, debe utilizar UTF-16LE para las conexiones con la base de datos de destino o archivo sin formato. Para asegurar la consistencia de los datos, la página de códigos de destino configurada debe coincidir con la página de códigos de la base de datos de destino o la del sistema de archivos sin formato.
Si configura el servicio de integración de datos de PowerCenter para una validación de página de códigos relajada, el servicio de integración de PowerCenter quita las restricciones sobre la compatibilidad de las página de códigos de origen y destino. Puede seleccionar cualquier página de códigos admitida para los datos de origen y destino. Sin embargo, debe asegurarse de que los destinos sólo reciban datos en caracteres codificados con la página de códigos de destino.
Paso 5. Verifique la compatibilidad de las páginas de códigos de la base de datos de búsqueda y procedimiento almacenado
Las páginas de códigos de la base de datos de búsqueda y procedimiento almacenado deben ser supraconjuntos de las páginas de códigos de origen y subconjuntos de las páginas de códigos de destino. En este caso, todas las conexiones de la base de datos de búsqueda y procedimiento almacenado deben utilizar una página de códigos compatible con UTF-16LE.
Paso 6. Verifique la compatibilidad del procedimiento externo o del procedimiento de transformación personalizado
El procedimiento externo y los procedimientos de transformación personalizados deben poder procesar los datos de caracteres de las páginas de códigos de origen y deben transferir caracteres que sean compatibles con las páginas de códigos de destino.
En este caso, el procedimiento externo o las transformaciones personalizadas deben poder procesar los datos en alemán o en japonés desde los orígenes. Sin embargo, el servicio de integración de PowerCenter transfiere los datos a los procedimientos en UCS-2. Por lo tanto, todos los datos procesados por el procedimiento externo o las transformaciones personalizadas deben estar en el juego de caracteres UCS-2.
Paso 7. Configure el orden de clasificación de la sesión
Cuando ejecute el servicio de integración de PowerCenter en modo Unicode, éste clasifica los datos de la sesión utilizando el orden de clasificación configurado para la sesión. De forma predeterminada, las sesiones están configuradas con un orden de clasificación binario.
Para clasificar datos en alemán y japonés cuando el servicio de integración de PowerCenter utilice UTF-16LE, lo más indicado probablemente sería emplear el orden de clasificación binario predeterminado.