Componente de cálculo
El componente de cálculo del Servicio de integración de datos es el Administrador de Data Transformation (Administrador de Data Transformation o DTM). El DTM extrae, transforma y carga datos para completar una tarea de transformación de datos.
El DTM debe ejecutarse en un nodo con la función de cálculo. Un nodo con la función de cálculo puede realizar cálculos solicitados por servicios de aplicación.
Administrador de transformación de datos de ejecución
El Administrador de Data Transformation (DTM) de ejecución extrae, transforma y carga los datos para ejecutar una tarea de transformación de datos tal como una vista previa o una asignación.
Cuando un módulo de servicio del Servicio de integración de datos recibe una solicitud para ejecutar una tarea, el módulo del servicio envía la solicitud al LDTM. El LDTM optimiza y compila la tarea y, a continuación, envía la tarea compilada al DTM. Se inicia una instancia de DTM para ejecutar la tarea y completar la solicitud.
Una instancia de DTM consiste en una representación específica y lógica del DTM. El Servicio de integración de datos ejecuta varias instancias del DTM para llevar a cabo varias solicitudes. Por ejemplo, el Servicio de integración de datos ejecuta una instancia independiente del DTM cada vez que recibe una solicitud de Developer tool para obtener la vista previa de una asignación.
El DTM completa los siguientes tipos de tareas:
- •Ejecutar u obtener una vista previa de asignaciones.
- •Ejecutar asignaciones en flujos de trabajo.
- •Obtener una vista previa de transformaciones.
- •Ejecutar o consultar servicios de datos SQL.
- •Ejecutar operaciones de servicios web.
- •Ejecutar u obtener una vista previa de perfiles de datos.
- •Generar cuadros de mandos.
Política de asignación de recursos de DTM
La política de asignación de recursos del Administrador de Data Transformation determina cómo se asignan los recursos de CPU para las tareas. El DTM utiliza una política de asignación de recursos a petición para asignar los recursos de CPU.
Cuando el DTM ejecuta una asignación, la convierte en un conjunto de tareas como:
- •Inicializar y desinicializar canales
- •Leer datos de un origen
- •Transformar datos
- •Escribir datos en un destino
El DTM solo asigna recursos de CPU cuando una tarea del DTM necesita un subproceso. Cuando una tarea finaliza, o si está inactiva, devuelve el subproceso a un grupo de subprocesos. El DTM reutiliza los subprocesos en el grupo de subprocesos para otras tareas del DTM.
Subprocesos de procesamiento
Cuando el DTM ejecuta asignaciones, utiliza canales de lectura, transformación y escritura que se ejecutan en paralelo para extraer, transformar y cargar datos.
El DTM separa una asignación en etapas de canal y utiliza un subproceso de lectura, una etapa de transformación y un subproceso de escritura para procesar cada etapa. Cada etapa de canal se ejecuta en uno de los siguientes subprocesos:
- •Subproceso de lectura que controla la forma en que el DTM extrae los datos del origen.
- •Subproceso de transformación que controla la forma en que el DTM procesa los datos del canal.
- •Subproceso de escritura que controla la forma en que el DTM carga los datos en el destino.
Como el canal contiene tres etapas, el DTM puede procesar tres conjuntos de filas simultáneamente y optimizar el rendimiento de la asignación. Por ejemplo, mientras que el subproceso de lectura procesa el tercer conjunto de filas, el subproceso de transformación procesa el segundo conjunto de filas y el subproceso de escritura procesa el primer conjunto de filas.
Si tiene la opción de utilizar particiones, el Servicio de integración de datos puede maximizar el paralelismo para asignaciones y perfiles. Cuando maximiza el paralelismo, el DTM separa una asignación en etapas de canal y usa varios subprocesos para procesar cada etapa.
Archivos de salida
El DTM genera archivos de salida cuando ejecuta asignaciones, asignaciones incluidas en un flujo de trabajo, perfiles, consultas SQL a un servicio de datos SQL, o solicitudes de operaciones de servicio web. En función de la configuración de la memoria caché de la transformación y de los tipos de destino, el DTM puede crear archivos de memoria caché, de rechazo, de destino o temporales.
De forma predeterminada, el DTM almacena los archivos de salida en los directorios definidos por las opciones de ejecución del Servicio de integración de datos.
Los objetos y las transformaciones de datos en Developer tool utilizan parámetros del sistema para acceder a los valores de estos directorios del Servicio de integración de datos. De forma predeterminada, los parámetros del sistema están asignados a campos del directorio de archivos sin formato, del directorio de archivos de memoria caché y del directorio de archivos temporales.
Por ejemplo, cuando un desarrollador crea una transformación de agregación en Developer tool, el parámetro del sistema CacheDir es el valor predeterminado asignado al campo del directorio de memoria caché. El valor del parámetro del sistema CacheDir se define en la propiedad Directorio de la memoria caché del Servicio de integración de datos. Los desarrolladores pueden quitar el parámetro predeterminado del sistema e introducir un valor diferente para el directorio de la caché. Sin embargo, las tareas no se ejecutarán si el Servicio de integración de datos no puede acceder al directorio.
En Developer tool, los desarrolladores pueden cambiar los parámetros predeterminados del sistema para definir otros directorios para cada transformación u objeto de datos.
Archivos de memoria caché
El DTM crea al menos un archivo de memoria caché para cada transformación de agregación, unión, búsqueda, rango y ordenación incluida en una asignación, perfil, servicio de datos SQL o asignación de operación del servicio web.
Si el DTM no puede procesar una transformación en la memoria, escribe los valores de desbordamiento en archivos de memoria caché. Cuando el trabajo finaliza, el DTM libera la memoria caché y normalmente elimina los archivos de la memoria caché.
De forma predeterminada, el DTM almacena los archivos de memoria caché para las transformaciones de agregación, unión, búsqueda y rango en la lista de directorios definida por la propiedad Directorio de la memoria caché del Servicio de integración de datos. El DTM crea archivos de índice y de memoria caché de datos. Al archivo de índice lo denomina PM*.idx y al archivo de datos, PM*.dat.
El DTM almacena los archivos de memoria caché para transformaciones de ordenación en la lista de directorios definida por la propiedad Directorios temporales del Servicio de integración de datos. El DTM crea un archivo de memoria caché de ordenación.
Archivos de rechazo
El DTM crea un archivo de rechazo para cada instancia de destino de una asignación o una asignación de operación de servicio web. Si el DTM no puede escribir una fila en el destino, escribirá la fila rechazada en el archivo de rechazo. Si el archivo de rechazo no contiene ninguna fila rechazada, el DTM elimina el archivo de rechazo cuando la tarea finaliza.
De forma predeterminada, el DTM almacena los archivos de rechazo en el directorio definido por la propiedad Directorio de archivos rechazados del Servicio de integración de datos. El DTM denomina los archivos de rechazo en función del nombre del objeto de datos de destino. El nombre predeterminado de los archivos de rechazo es <nombre de archivo>.bad.
Archivos de destino
Si una asignación o una asignación de operación de servicio web escribe en un destino de archivo sin formato, el DTM crea el archivo de destino en función de la configuración del objeto de datos de archivo sin formato.
De forma predeterminada, el DTM almacena los archivos de destino en la lista de directorios definidos por la propiedad Directorio de destino para el Servicio de integración de datos. El DTM denomina los archivos de destino según el nombre del objeto de datos de destino. El nombre predeterminado para los archivos de destino es <nombre de archivo>.out.
Archivos temporales
El DTM puede crear archivos temporales cuando ejecuta asignaciones, perfiles, consultas SQL o asignaciones de operaciones de servicio web. Cuando las tareas se completan, los archivos temporales suelen eliminarse.
De forma predeterminada, el DTM almacena los archivos temporales en la lista de directorios definidos por la propiedad Directorios temporales para el Servicio de integración de datos. El DTM también almacena los archivos de memoria caché de las transformaciones de ordenación en la lista de directorios definidos por la propiedad Directorios temporales.