Big Data
En esta sección se describen las nuevas características relativas a grandes datos en la versión 10.0.
Utilidad de configuración de Big Data Management
A partir de la versión 10.0, puede utilizar la utilidad de configuración de Big Data Management para automatizar parte del proceso de configuración para Big Data Management.
Para obtener más información, consulte la Guía de instalación y configuración de Big Data Management de Informatica 10.0.
Conexión de Hadoop
A partir de la versión 10.0, debe configurar una conexión de Hadoop al ejecutar una asignación en el entorno Hadoop. Puede editar la conexión de Hadoop para configurar las propiedades de tiempo de ejecución para el entorno Hadoop. Las propiedades de tiempo de ejecución incluyen propiedades para los motores de Hive y Blaze.
La siguiente imagen muestra la conexión de Hadoop como una conexión de tipo clúster:
Para obtener más información, consulte el capítulo "Conexiones" en la Guía del usuario de Informatica 10.0 Big Data Management.
Ecosistema Hadoop
A partir de la versión 10.0, Informatica admite las siguientes mejoras y características de Big Data para el ecosistema Hadoop:
- Clústeres de Hadoop en Amazon EC2
- Puede leer datos de clústeres de Hortonworks HDP que se implementan en Amazon EC2 y escribir datos en ellos.
- Distribuciones de Hadoop
- Puede conectarse a clústeres de Hadoop que ejecuten las siguientes distribuciones de Hadoop:
- - Cloudera CDH 5.4
- - MapR 4.0.2 con MapReduce 1 y MapReduce 2
- Hive on Tez
- Puede utilizar Hive on Tez como el motor de ejecución para los clústeres de Hadoop que ejecuten Hortonworks HDP.
- Autenticación Kerberos
- Puede usar Microsoft Active Directory como centro de distribución de claves para clústeres de Hadoop de Cloudera CDH y Hortonworks HDP.
Parámetros de Big Data
A partir de la versión 10.0, se pueden utilizar parámetros para representar las siguientes propiedades adicionales:
- •Orígenes y destinos de archivo complejos
- •Orígenes y destinos de archivo complejos en HDFS
- •Orígenes y destinos de archivo sin formato en HDFS
- •Orígenes y destinos de HBase
- •Orígenes Hive
- •Destinos Hive en el entorno Hadoop
- •Entorno de tiempo de ejecución
Para obtener más información, consulte el capítulo "Asignaciones en un entorno Hadoop" de la Guía del usuario de Informatica 10.0 Big Data Management.
Tiempo de ejecución y entornos de validación
A partir de la versión 10.0, puede seleccionar el entorno de Hadoop para que ejecute asignaciones en el clúster de Hadoop. Cuando selecciona el entorno de Hadoop, también puede seleccionar el motor de Hive o Blaze para insertar la lógica de asignación en el clúster de Hadoop. El motor de Blaze es un motor propiedad de Informatica para un procesamiento distribuido de Hadoop.
Cuando ejecuta una asignación en un entorno de Hadoop, debe configurar una conexión de Hadoop para la asignación. Valide la asignación para asegurarse de que puede insertar la lógica de asignación en Hadoop. Después de validar una asignación para el entorno de Hadoop, podrá ejecutar la asignación.
La siguiente imagen muestra el tiempo de ejecución de Hadoop y los entornos de validación:
Para obtener más información, consulte el capítulo "Asignaciones en un entorno Hadoop" de la Guía del usuario de Informatica 10.0 Big Data Management.