HDFS- oder ViewFS-Verbindungseigenschaften

Verwenden Sie eine HDFS-Verbindung (Hadoop File System) bzw. eine ViewFS-Verbindung (View File System) zum Zugriff auf Daten im Hadoop-Cluster. Die HDFS- oder ViewFS-Verbindung ist ein Dateisystem-Verbindungstyp. Sie können eine HDFS- oder ViewFS-Verbindung im Administrator Tool, im Analyst Tool oder im Developer Tool erstellen und verwalten. HDFS- oder ViewFS-Verbindungseigenschaften unterscheiden zwischen Groß- und Kleinschreibung, sofern nicht anders angegeben.

Eigenschaft	Beschreibung
Name	Name der Verbindung. Der Name unterliegt nicht der Groß-/Kleinschreibung und muss innerhalb der Domäne eindeutig sein. Der Name darf nicht mehr als 128 Zeichen und weder Leerzeichen noch die folgenden Sonderzeichen enthalten: ~ ` ! $ % ^ & * ( ) - + = { [ } ] \| \ : ; " ' < , > . ? /
ID	Zeichenfolge, die der Datenintegrationsdienst zum Erkennen der Verbindung verwendet. Bei der ID wird die Groß- und Kleinschreibung nicht beachtet. Sie darf maximal 255 Zeichen umfassen und muss in der Domäne eindeutig sein. Sie können diese Eigenschaft nach dem Erstellen der Verbindung nicht mehr ändern. Als Standardwert dient der Verbindungsname.
Beschreibung	Die Beschreibung der Verbindung. Die Beschreibung darf nicht mehr als 765 Zeichen enthalten.
Speicherort	Die Domäne, in der Sie die Verbindung erstellen möchten. Nicht gültig für das Analyst-Tool.
Typ	Der Verbindungstyp. Die Standardeinstellung ist Hadoop-Dateisystem.
Benutzername	Benutzername für den Zugriff auf HDFS.
NameNode URI	Der URI für den Zugriff auf das Speichersystem. Der Wert für fs.defaultFS befindet sich im Konfigurationssatz core-site.xml der Cluster-Konfiguration. Wenn Sie beim Importieren der Cluster-Konfiguration Verbindungen erstellen, wird die NameNode-URI-Eigenschaft standardmäßig aufgefüllt und jedes Mal aktualisiert, wenn Sie die Cluster-Konfiguration aktualisieren. Wenn Sie einen Cloudera CDP Public Cloud-Computing-Cluster verwenden und sich das HDFS in einem Cloudera Data Lake-Cluster befindet, legen Sie die Eigenschaft spark.yarn.access.hadoopFileSystems in den Spark-Eigenschaften der Hadoop-Verbindung auf den gleichen Wert wie hier festgelegt fest.

Zugreifen auf mehrere Speichertypen

Speicher	NameNode-URI-Format
HDFS	hdfs://<namenode>:<port> Dabei gilt Folgendes: - <namenode> ist der Hostname bzw. die IP-Adresse von NameNode. - <port> ist der Port, den NameNode auf Remoteprozeduraufrufe (RPC) abhört. hdfs://<nameservice> im Falle einer NameNode-Hochverfügbarkeit.
View File System (ViewFS)	viewfs://<clusterX>, wobei clusterX die Mount-Tabelle für den Cluster ist.
MapR-FS	maprfs:///
WASB in HDInsight	wasb://<container_name>@<account_name>.blob.core.windows.net/<path> Dabei gilt Folgendes: - <Containername> identifiziert einen spezifischen Azure Storage Blob-Container. HINWEIS: <Containername> ist optional. - <Kontoname> identifiziert das Azure Storage Blob-Objekt. Beispiel: wasb://infabdmoffering1storage.blob.core.windows.net/infabdmoffering1cluster/mr-history
ADLS in HDInsight	adl://home

Wenn Sie eine Clusterkonfiguration anhand eines Azure-HDInsight-Clusters erstellen, verwendet die Clusterkonfiguration entweder ADLS oder WASB als primären Speicher. Sie können keine Cluster-Konfiguration mit ADLS oder WASB als sekundärem Speicher erstellen. Sie können die NameNode-URI-Eigenschaft in der HDFS- oder ViewFS-Verbindung bearbeiten, um eine Verbindung mit einem lokalen HDFS- oder ViewFS-Speicherort herzustellen.