Guía de versiones > Parte I: Versión 10.0 > Nuevas características (10.0) > Big Data

Big Data

En esta sección se describen las nuevas características relativas a grandes datos en la versión 10.0.

Utilidad de configuración de Big Data Management

A partir de la versión 10.0, puede utilizar la utilidad de configuración de Big Data Management para automatizar parte del proceso de configuración para Big Data Management.

Para obtener más información, consulte la Guía de instalación y configuración de Big Data Management de Informatica 10.0.

Conexión de Hadoop

A partir de la versión 10.0, debe configurar una conexión de Hadoop al ejecutar una asignación en el entorno Hadoop. Puede editar la conexión de Hadoop para configurar las propiedades de tiempo de ejecución para el entorno Hadoop. Las propiedades de tiempo de ejecución incluyen propiedades para los motores de Hive y Blaze.

La siguiente imagen muestra la conexión de Hadoop como una conexión de tipo clúster:

La imagen muestra la pantalla Preferencias. Conexiones está seleccionada en Informatica en el lado izquierdo. La lista de conexiones disponibles aparece en el lado derecho. Hadoop está seleccionada en Clústeres.

Para obtener más información, consulte el capítulo "Conexiones" en la Guía del usuario de Informatica 10.0 Big Data Management.

Ecosistema Hadoop

A partir de la versión 10.0, Informatica admite las siguientes mejoras y características de Big Data para el ecosistema Hadoop:

Clústeres de Hadoop en Amazon EC2: Puede leer datos de clústeres de Hortonworks HDP que se implementan en Amazon EC2 y escribir datos en ellos.

Distribuciones de Hadoop: Puede conectarse a clústeres de Hadoop que ejecuten las siguientes distribuciones de Hadoop:

Hive on Tez: Puede utilizar Hive on Tez como el motor de ejecución para los clústeres de Hadoop que ejecuten Hortonworks HDP.
Autenticación Kerberos: Puede usar Microsoft Active Directory como centro de distribución de claves para clústeres de Hadoop de Cloudera CDH y Hortonworks HDP.

Parámetros de Big Data

A partir de la versión 10.0, se pueden utilizar parámetros para representar las siguientes propiedades adicionales:

•Orígenes y destinos de archivo complejos
•Orígenes y destinos de archivo complejos en HDFS
•Orígenes y destinos de archivo sin formato en HDFS
•Orígenes y destinos de HBase
•Orígenes Hive
•Destinos Hive en el entorno Hadoop
•Entorno de tiempo de ejecución

Para obtener más información, consulte el capítulo "Asignaciones en un entorno Hadoop" de la Guía del usuario de Informatica 10.0 Big Data Management.

Tiempo de ejecución y entornos de validación

A partir de la versión 10.0, puede seleccionar el entorno de Hadoop para que ejecute asignaciones en el clúster de Hadoop. Cuando selecciona el entorno de Hadoop, también puede seleccionar el motor de Hive o Blaze para insertar la lógica de asignación en el clúster de Hadoop. El motor de Blaze es un motor propiedad de Informatica para un procesamiento distribuido de Hadoop.

Cuando ejecuta una asignación en un entorno de Hadoop, debe configurar una conexión de Hadoop para la asignación. Valide la asignación para asegurarse de que puede insertar la lógica de asignación en Hadoop. Después de validar una asignación para el entorno de Hadoop, podrá ejecutar la asignación.

La siguiente imagen muestra el tiempo de ejecución de Hadoop y los entornos de validación:

La figura muestra la ficha Tiempo de ejecución de la asignación. Hadoop se selecciona en el entorno de validación. Los motores de Hive en MapReduce y Blaze se seleccionan de forma predeterminada. Hadoop se selecciona en el entorno de ejecución.

Para obtener más información, consulte el capítulo "Asignaciones en un entorno Hadoop" de la Guía del usuario de Informatica 10.0 Big Data Management.