Data Engineering Administrator Guide > Connections Reference > Configuring Hadoop Connection Properties

Configuring Hadoop Connection Properties

When you create a Hadoop connection, default values are assigned to cluster environment variables, cluster path properties, and advanced properties. You can add or edit values for these properties. You can also reset to default values.

You can configure the following Hadoop connection properties based on the cluster environment and functionality that you use:

•Cluster Environment Variables
•Cluster Library Path
•Common Advanced Properties
•Blaze Engine Advanced Properties
•Spark Engine Advanced Properties

To reset to default values, delete the property values. For example, if you delete the values of an edited Cluster Library Path property, the value resets to the default $DEFAULT_CLUSTER_LIBRARY_PATH.

Cluster Environment Variables

Cluster Environment Variables property lists the environment variables that the cluster uses. Each environment variable contains a name and a value. You can add environment variables or edit environment variables.

To edit the property in the text box, use the following format with &: to separate each name-value pair:

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

Configure the following environment variables in the Cluster Environment Variables property:

HADOOP_NODE_JDK_HOME: Represents the directory from which you run the cluster services and the JDK version that the cluster nodes use. Required to run the Java transformation in the Hadoop environment and Sqoop mappings on the Blaze engine. Default is /usr/java/default. The JDK version that the Data Integration Service uses must be compatible with the JDK version on the cluster.

Cluster Library Path

Cluster Library Path property is a list of path variables for shared libraries on the cluster. You can add or edit library path variables.

To edit the property in the text box, use the following format with : to separate each path variable:

<variable1>[:<variable2>…:<variableN]

Configure the library path variables in the Cluster Library Path property.

Common Advanced Properties

Common advanced properties are a list of advanced or custom properties that are unique to the Hadoop environment. The properties are common to the Blaze and Spark engines. Each property contains a name and a value. You can add or edit advanced properties.

To edit the property in the text box, use the following format with &: to separate each name-value pair:

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

Configure the following property in the Advanced Properties of the common properties section:

infapdo.java.opts

Blaze Engine Advanced Properties

Blaze advanced properties are a list of advanced or custom properties that are unique to the Blaze engine. Each property contains a name and a value. You can add or edit advanced properties.

To edit the property in the text box, use the following format with &: to separate each name-value pair:

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

Configure the following properties in the Advanced Properties of the Blaze configuration section:

infagrid.cadi.namespace

infagrid.blaze.console.jsfport

infagrid.blaze.console.httpport

infagrid.node.local.root.log.dir

infacal.hadoop.logs.directory: Path in HDFS for the persistent Blaze logs. Default is /var/log/hadoop-yarn/apps/informatica. Required to set up multiple Blaze instances.

infagrid.node.hadoop.local.root.log.dir: Path in the Hadoop connection for the service log directory.; Set to <service log directory path>.

Spark Advanced Properties

Spark advanced properties are a list of advanced or custom properties that are unique to the Spark engine. Each property contains a name and a value. You can add or edit advanced properties. Each property contains a name and a value. You can add or edit advanced properties.

Configure the following properties in the Advanced Properties of the Spark configuration section:

To edit the property in the text box, use the following format with &: to separate each name-value pair:

<name1>=<value1>[&:<name2>=<value2>…&:<nameN>=<valueN>]

infasjs.env.spark.context-settings.passthrough.spark.dynamicAllocation.executorIdleTimeout: Maximale Zeit, die ein Executor-Knoten des Spark-Jobservers inaktiv sein kann, bevor er entfernt wird. Erhöhen Sie den Wert, um die Fehlerbehebung von Datenvorschau-Jobs, die die Spark-Engine nutzen, zu unterstützen.

infasjs.env.spark.jobserver.max-jobs-per-context: Maximale Anzahl an Spark-Jobs, die gleichzeitig in einem Spark-Kontext ausgeführt werden können. Wenn Sie den Wert dieser Eigenschaft erhöhen, müssen Sie ggf. mehr Ressourcen zuweisen, indem Sie die Werte für spark.executor.cores und spark.executor.memory erhöhen.

infasjs.env.spark.jobserver.sparkJobTimeoutInMinutes: Maximale Zeit in Minuten, die ein Spark-Job in einem Spark-Kontext ausgeführt werden kann, bevor der Spark-Jobserver den Job abbricht. Erhöhen Sie den Wert, um die Fehlerbehebung von Datenvorschau-Jobs, die die Spark-Engine nutzen, zu unterstützen.

infaspark.class.log.level.map: Protokollierungsebene für bestimmte Klassen im Spark-Treiber oder -Executor. Wenn Sie diese Eigenschaft konfigurieren, überschreibt sie die für die Zuordnung festgelegte Tracingebene.

infaspark.driver.cluster.mode.extraJavaOptions

infaspark.driver.log.level: Protokollierungsebene für die Spark-Treiberprotokolle. Wenn Sie diese Eigenschaft konfigurieren, überschreibt sie die für die Zuordnung festgelegte Tracingebene.

infaspark.executor.extraJavaOptions

infaspark.executor.log.level: Protokollierungsebene für die Spark-Executor-Protokolle. Wenn Sie diese Eigenschaft konfigurieren, überschreibt sie die für die Zuordnung festgelegte Tracingebene.

infaspark.flatfile.writer.nullValue: Wenn die Databricks-Spark-Engine in ein Ziel schreibt, konvertiert sie Nullwerte in leere Zeichenfolgen (" "). Beispiel: 12, AB,"",23p09udj.; Die Databricks-Spark-Engine kann die leeren Zeichenfolgen in Zeichenfolgenspalten schreiben. Aber wenn sie versucht, eine leere Zeichenfolge in eine Nicht-Zeichenfolgenspalte zu schreiben, schlägt das Mapping mit einem Typenkonflikt fehl.

infaspark.json.parser.mode

infaspark.json.parser.multiLine

infaspark.pythontx.exec

infaspark.pythontx.executorEnv.LD_PRELOAD

infaspark.pythontx.executorEnv.PYTHONHOME

infaspark.pythontx.submit.lib.JEP_HOME

infaspark.useHiveWarehouseAPI: Aktiviert den Hive Warehouse Connector. Setzen Sie den Wert auf TRUE.

spark.authenticate

spark.authenticate.enableSaslEncryption

spark.datasource.hive.warehouse.load.staging.dir: Verzeichnis für die temporären HDFS-Dateien, die für Batch-Schreibvorgänge in Hive verwendet werden. Erforderlich, wenn Sie den Hive Warehouse Connector aktivieren.

spark.datasource.hive.warehouse.metastoreUri: URI für den Hive-Metastore. Erforderlich, wenn Sie den Hive Warehouse Connector aktivieren. Verwenden Sie den Wert für hive.metastore.uris aus den Eigenschaften der hive_site_xml-Clusterkonfiguration.

spark.driver.cores: Gibt die Anzahl der Kerne an, die von jedem Treiber zum Ausführen von Jobs auf der Spark-Engine verwendet werden.

spark.driver.extraJavaOptions: Liste der zusätzlichen Java-Optionen für den Spark-Treiber.

spark.driver.memory: Gibt den Prozessspeicher des Treibers an, der von der Spark-Engine zum Ausführen von Jobs verwendet wird.

spark.executor.cores: Gibt die Anzahl der Kerne an, die jeder Executor-Prozess zum Ausführen von Tasklets auf der Spark-Engine verwendet.

spark.executor.extraJavaOptions: Liste der zusätzlichen Java-Optionen für den Spark-Executor.

spark.executor.instances: Gibt die Anzahl der Instanzen an, die jeder Executor-Prozess zum Ausführen von Tasklets auf der Spark-Engine verwendet.

spark.executor.memory: Gibt die Arbeitsspeichermenge an, die jeder Executor-Prozess zum Ausführen von Tasklets auf der Spark-Engine verwendet.

spark.hadoop.hive.llap.daemon.service.hosts: Anwendungsname für den LLAP-Dienst. Erforderlich, wenn Sie den Hive Warehouse Connector aktivieren. VerwendenKopieren Sie den Wert für hive.llap.daemon.service.hosts aus den Eigenschaften der hive_site_xml-Clusterkonfiguration.

spark.hadoop.hive.zookeeper.quorum: Von Hive LLAP verwendete Zookeeper-Hosts. Erforderlich, wenn Sie den Hive Warehouse Connector aktivieren. Verwenden Sie den Wert für hive.zookeeper.quorum aus den Eigenschaften der hive_site_xml-Clusterkonfiguration.

spark.hadoop.validateOutputSpecs: Validiert, ob die HBase-Tabelle vorhanden ist. Für das Streamen von Mappings erforderlich, um in ein HBase-Ziel in einem Amazon EMR-Cluster zu schreiben. Legen Sie den Wert auf FALSE fest.

spark.scheduler.maxRegisteredResourcesWaitingTime

spark.scheduler.minRegisteredResourcesRatio

spark.shuffle.encryption.enabled

spark.sql.hive.hiveserver2.jdbc.url: URL füor HiveServer2 Interactive. Erforderlich für die Verwendung des Hive Warehouse Connector. Verwenden Sie den Wert in Ambari für HiveServer2 JDBC URL.

spark.yarn.access.hadoopFileSystems: Kommagetrennte Liste externer Dateisysteme, auf die der Spark-Dienst zugreifen kann. Standardmäßig hat der Spark-Dienst Zugriff auf die Dateisysteme, die in „fs.defaultFS“ im Konfigurationssatz „core-site.xml“ der Clusterkonfiguration aufgeführt sind. Legen Sie diese Eigenschaft fest, um dem Spark-Dienst Zugriff auf zusätzliche Dateisysteme zu gewähren.; Wenn Sie eine Zuordnung in einem Cloudera CDP Public Cloud-Cluster ausführen und ein HDFS in einem Cloudera Data Lake-Cluster verwenden, müssen Sie den Zugriff auf dieses Dateisystem zulassen. Hängen Sie den Wert für die Eigenschaft fs.defaultFS an, der in der Datei core-site.xml auf dem Data Lake-Cluster gefunden wurde. Beispiel: spark.yarn.access.hadoopFileSystems=hdfs://infarndcdppamdl-master1.infarndc.src9-ltfl.cloudera.site:8020