Databricks接続プロパティ Databricksに対してデータの安全な読み取りまたは書き込みを行うためのServiceNow接続を作成します。
ステージングの前提条件 接続を作成する前に、SQLウェアハウス、汎用クラスタ、またはジョブクラスタに接続するステージング環境を設定するために、特定の前提条件タスクを実行する必要があります。
SQLウェアハウス デプロイされた環境に基づいて、SQLウェアハウス用のAWSまたはAzureステージング環境を設定します。また、AzureおよびAWSステージングを使用するには、SQLウェアハウスのSparkパラメータを設定する必要があります。
SQLウェアハウスは、WindowsおよびLinuxオペレーティングシステムで使用することができます。
接続できるSQLウェアハウスのタイプの詳細については、ナレッジベースの記事「
Databricks SQL warehouses 」を参照してください。
AWSステージングの設定 SQLウェアハウスにAWSステージングを使用するようにIAM AssumeRole認証を設定します。
最小限のAmazon IAMポリシーの作成 Amazon S3でデータをステージングするには、次の最小限必要な権限を使用します。
• PutObject• GetObject• DeleteObject• ListBucket次のサンプルAmazon IAMポリシーを使用できます。
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:DeleteObject", "s3:ListBucket", ], "Resource": [ "arn:aws:s3:::<bucket_name>/*", "arn:aws:s3:::<bucket_name>" ] } ] }
注: [テスト接続] はユーザーに割り当てられたIAMポリシーを検証しません。ソースの詳細プロパティでAmazon S3バケット名を指定できます。
この情報は、データ取り込みおよびレプリケーション には適用されません。
AWSステージング用のSparkパラメータの設定 Databricks SQL管理コンソールで、[SQLウェアハウスの設定] > [データセキュリティ] に移動し、[データアクセス設定] でAWSのSparkパラメータを設定します。
次のSpark構成パラメータを追加し、SQLウェアハウスを再起動します。
• spark.hadoop.fs.s3a.access.key <S3アクセスキーの値> • spark.hadoop.fs.s3a.secret.key <S3シークレットキーの値> • smile.hadoop.fs.s3a.endpoint <S3ステージングバケットエンドポイントの値> 例えば、S3ステージングバケットウェアハウスの値はs3.ap-south-1.amazonaws.com のようになります。
設定したアクセスキーとシークレットキーで、Databricksテーブルのデータを保存するS3バケットにアクセスできることを確認します。
Azureステージングの設定 Microsoft Azure Data Lake Storage Gen2を使用してファイルをステージングする前に、次のタスクを実行します。
• Microsoft Azure Data Lake Storage Gen2で使用するストレージアカウントを作成し、Azureポータルで[階層名前空間] を有効にします。ロールベースのアクセス制御を使用して、ユーザーがストレージアカウントのリソースにアクセスすることを許可できます。ユーザーにContributorロールまたはReaderロールを割り当てます。Contributorロールにはストレージアカウント内のすべてのリソースを管理できる完全なアクセス権限が付与されますが、ロールの割り当ては許可されません。[Reader]ロールにはストレージアカウント内のすべてのリソースの閲覧権限が付与されますが、リソースの変更は許可されません。
注: ロールの割り当てを追加または削除するには、[Owner]ロールなどの書き込みおよび削除権限が必要です。
• Azure Active Directoryにアプリケーションを登録して、Microsoft Azure Data LakeStorage Gen2アカウントにアクセスするユーザーを認証します。ロールベースのアクセス制御を使用してアプリケーションを許可できます。アプリケーションにStorage Blob Data ContributorロールまたはStorage Blob Data Readerロールを割り当てます。Storage Blob Data Contributorロールを割り当てた場合は、ストレージアカウント内のAzure StorageコンテナとBlobの読み取り、書き込み、および削除を行うことができます。Storage Blob Data Readerロールを割り当てた場合は、ストレージアカウント内のAzure StorageコンテナとBlobの読み取りおよび一覧表示のみを行うことができます。
• Microsoft Azure Data Lake Storage Gen2でのサービス間認証用にAzure Active Directory Webアプリケーションを作成します。注: コネクタを使用してアプリケーションで作成されたフォルダまたはファイルにアクセスするためのスーパーユーザー特権があることを確認します。
• 複合ファイルの読み取りを行うには、タイプDTMのJVMオプションを設定して、Secure Agentのシステム構成の詳細で-Xmsおよび-Xmx値を増やし、Javaヒープ領域不足のエラーを回避します。推奨される-Xms値は512MB、-Xmx値は1024MBです。Azureステージング用のSparkパラメータの設定 Databricks SQL管理コンソールで、[SQLウェアハウスの設定] > [データセキュリティ] に移動し、[データアクセス設定] でAzureのSparkパラメータを設定します。
次のSpark構成パラメータを追加し、SQLウェアハウスを再起動します。
• spark.hadoop.fs.azure.account.oauth2.client.id.<storage-account-name>.dfs.core.windows.net <value> • spark.hadoop.fs.azure.account.auth.type.<storage-account-name>.dfs.core.windows.net OAuth • spark.hadoop.fs.azure.account.oauth2.client.secret.<storage-account-name>.dfs.core.windows.net <Value> • spark.hadoop.fs.azure.account.oauth.provider.type.<storage-account-name>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider • spark.hadoop.fs.azure.account.oauth2.client.endpoint.<storage-account-name>.dfs.core.windows.net https://login.microsoftonline.com/<テナントID>/oauth2/token 設定したクライアントIDとクライアントシークレットで、Databricksテーブルのデータを保存するファイルシステムにアクセスできることを確認します。
汎用クラスタ 汎用クラスタでの設計時処理用のSecure Agentプロパティを有効にします。
汎用クラスタは、Linuxオペレーティングシステムでのみ使用できます。
Secure Agentのプロパティの設定 汎用クラスタに接続するには、設計時にSecure Agentのプロパティを有効にします。
1 Administrator で、[ランタイム環境] タブに一覧表示されているSecure Agentを選択します。2 [編集] をクリックします。3 [システム構成の詳細] セクションで、[サービス] として[データ統合サーバー]を選択し、[タイプ] として[Tomcat JRE]を選択します。4 [JRE_OPTS] フィールドを編集して、値を-DUseDatabricksSql=false に設定します。ジョブクラスタ クラスタがデプロイされている場所に基づいてAzureおよびAWSステージングを使用するように、ジョブクラスタのSparkパラメータを設定します。
また、ジョブクラスタでの実行時の処理に対してSecure Agentプロパティを有効にする必要があります。
ジョブクラスタは、Linuxオペレーティングシステムでのみ使用できます。
Spark設定 ジョブクラスタに接続する前に、AWSとAzureでSparkパラメータを設定する必要があります。
AWSでの設定 ジョブクラスタに次のSpark構成パラメータを追加し、クラスタを再起動します。
• spark.hadoop.fs.s3a.access.key <値> • spark.hadoop.fs.s3a.secret.key <value> • spark.hadoop.fs.s3a.endpoint <value> 設定したアクセスキーとシークレットキーで、Databricksテーブルのデータを保存するバケットにアクセスできることを確認します。
Azureでの設定 ジョブクラスタに次のSpark構成パラメータを追加し、クラスタを再起動します。
• fs.azure.account.oauth2.client.id.<storage-account-name>.dfs.core.windows.net <value> • fs.azure.account.auth.type.<storage-account-name>.dfs.core.windows.net <value> • fs.azure.account.oauth2.client.secret.<storage-account-name>.dfs.core.windows.net <Value> • fs.azure.account.oauth.provider.type.<storage-account-name>.dfs.core.windows.net org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider • fs.azure.account.oauth2.client.endpoint.<storage-account-name>.dfs.core.windows.net https://login.microsoftonline.com/<テナントID>/oauth2/token 設定したクライアントIDとクライアントシークレットで、Databricksテーブルのデータを保存するファイルシステムにアクセスできることを確認します。
Databricksへの接続 Databricksに接続するようにDatabricksの接続プロパティを設定してみましょう。
始める前に Databricks接続を使用して、Databricksテーブルの読み取りと書き込みを行うことができます。
次のコンピューティングリソースを設定して、Databricksに接続できます。
• SQLウェアハウス(推奨) Secure Agentは、設計時と実行時にSQLウェアハウスに接続します。
• 汎用クラスタとジョブクラスタ Secure Agentは、汎用クラスタに接続して設計時にメタデータをインポートし、ジョブクラスタに接続してマッピングを実行します。
注: 汎用クラスタまたはジョブクラスタを使用している場合はSQLウェアハウスに移行することをお勧めします。汎用クラスタとジョブクラスタが新しい機能の更新プログラムや拡張機能を受け取ることはありません。しかし、安定性と安全性を維持するために重要なセキュリティ更新プログラムは引き続き受け取ります。SQLウェアハウスに切り替えると、最新の機能と拡張機能を利用することができます。
開始する前に、Databricks接続を使用するようにAWSまたはAzureステージング環境を設定する必要があります。
AzureまたはAWS環境の前提条件については、「
ステージングの前提条件 」を確認してください。
接続の詳細 次の表に、基本 接続プロパティを示します。
プロパティ
説明
接続名
接続の名前。
各接続名は組織内で一意である必要があります。接続名には、英数字、スペース、および次の特殊文字を含めることができます。_ .+ -,
最大長は255文字です。
説明
接続の説明。最大長は4000文字です。
タイプ
Databricks
ランタイム環境
タスクを実行するランタイム環境の名前。
Hosted Agentまたはサーバーレスランタイム環境で、アプリケーション取り込みとレプリケーション タスク、データベースデータベース取り込みとレプリケーション タスク、またはストリーミング取り込みとレプリケーション タスクを実行することはできません。
SQLウェアハウスJDBC URL
Databricks SQLウェアハウスのJDBC接続URL。
このプロパティは、Databricks SQLウェアハウスにのみ必要です。汎用クラスタとジョブクラスタには適用されません。
SQLウェアハウスJDBC URLを取得するには、Databricksコンソールに移動し、[JDBC URL]メニューからJDBCドライババージョンを選択します。
アプリケーション取り込みとレプリケーション タスクとデータベース取り込みとレプリケーション タスクでは、JDBC URLバージョン2.6.25以降 または2.6.22以前 を使用できます。URLは次のように、プレフィックスjdbc:databricks:// で始まる必要があります。
jdbc:databricks://<Databricksホスト>:443/default;transportMode=http;ssl=1;AuthMech=3;httpPath=/sql/1.0/endpoints/<SQLエンドポイントのクラスタID>;
Secure Agentで必要な環境変数を設定してください。また、詳細接続設定で正しい[JDBCドライバクラス名] を指定します。
注: データベース名は[データベース名]接続プロパティで指定します。JDBC URLでデータベース名を指定した場合、そのデータベース名は考慮されません。
認証タイプ Databricksにアクセスする場合に、パーソナルアクセストークン認証およびOAuth Machine-to-Machine認証のタイプを設定することができます。
必要な認証方法を選択し、認証固有のパラメータを設定します。
パーソナルアクセストークン認証にはパーソナルアクセストークンが必要となり、OAuth Machine-to-Machine認証にはDatabricksアカウントのクライアントIDとクライアントシークレットが必要です。
パーソナルアクセストークン、クライアントID、およびクライアントシークレットを取得する方法の詳細については、Databricksのマニュアルを参照してください。
パーソナルアクセストークン認証 パーソナルアクセストークン認証には、Databricksアカウントのパーソナルアクセストークンが必要です。
次の表に、パーソナルアクセストークン認証の接続プロパティとその説明を示します。
プロパティ
説明
Databricksトークン
Databricksにアクセスするためのパーソナルアクセストークン。
このプロパティは、SQLウェアハウス、汎用クラスタ、ジョブクラスタでは必須です。
カタログ名
Unity Catalogを使用する場合のメタストア内の既存のカタログの名前。
このプロパティは、SQLウェアハウスでは省略可能です。汎用クラスタとジョブクラスタには適用されません。
カタログ名に特殊文字を含めることはできません。
Unity Catalogの詳細については、Databricksのマニュアルを参照してください。
OAuth Machine-to-Machine認証 OAuth Machine-to-Machine認証には、DatabricksアカウントのクライアントIDとクライアントシークレットが必要です。
OAuth Machine-to-Machine認証は、汎用クラスタ、ジョブクラスタ、および詳細モードのマッピングには適用されません。 OAuth Machine-to-Machine認証は、JDBCドライババージョン2.6.25以降でのみ使用することができます。
次の表に、OAuth Machine-to-Machine認証の接続プロパティとその説明を示します。
プロパティ
説明
クライアントID
サービスプリンシパルのクライアントID。
クライアントシークレット
サービスプリンシパルのクライアントIDに関連付けられているクライアントシークレット。
カタログ名
Unity Catalogを使用する場合のメタストア内の既存のカタログの名前。
このプロパティは、SQLウェアハウスでは省略可能です。汎用クラスタとジョブクラスタには適用されません。
カタログ名に特殊文字を含めることはできません。
Unity Catalogの詳細については、Databricksのマニュアルを参照してください。
詳細設定 次の表に、詳細接続のプロパティを示します。
プロパティ
説明
データベース
Databricksのスキーマの名前。
名前には、英数字とハイフン(-)のみを含めることができます。
このプロパティは、SQLウェアハウス、汎用クラスタ、ジョブクラスタでは省略可能です。
値を指定しない場合、ワークスペースで使用可能なすべてのデータベースが一覧表示されます。指定した値は、[SQLウェアハウスJDBC URL] 接続プロパティで指定したスキーマによりも優先されます。
JDBCドライバクラス名
JDBCドライバクラスの名前。
このプロパティは、SQLウェアハウス、汎用クラスタ、ジョブクラスタでは省略可能です。
デフォルトはcom.databricks.client.jdbc.Driver です
ステージング環境
処理前にデータが一時的に保存されるステージング環境
このプロパティは、SQLウェアハウス、汎用クラスタ、ジョブクラスタでは必須です。
ステージング環境として次のいずれかのオプションを選択します。
- AWS。DatabricksがAWSプラットフォームでホストされているかどうかを選択します。- Azure。DatabricksがAzureプラットフォームでホストされているかどうかを選択します。- 個人用ステージングの場所。ローカルの個人用ストレージの場所にデータをステージングする場合に選択します。個人用ステージングの場所は、汎用クラスタとジョブクラスタには適用されません。
重要: 2024年10月リリースから、個人用ステージングの場所は非推奨になりました。現在のリリースではこの機能を使用できますが、Informaticaは将来のリリースでこの機能のサポートを終了する予定です。ボリュームを使用してデータをステージングすることをお勧めします。
- ボリューム。Databricksのボリュームにデータをステージングする場合に選択します。ボリュームは、ファイルやディレクトリなどの表形式以外のデータセットを管理および保護するために使用されるUnity Catalogオブジェクトです。ボリュームを使用するには、DatabricksワークスペースがUnity Catalogに対して有効になっていることを確認してください。ボリュームは、汎用クラスタとジョブクラスタには適用されません。
ボリュームは、Linuxマシン上で、JDBCドライバのバージョンが2.6.25以降である場合にのみ使用できます。
デフォルトは[ボリューム]です。
データ取り込みおよびレプリケーション で使用する接続に[個人用ステージングの場所]を選択した場合は、アプリケーション取り込みとレプリケーション ジョブまたはデータベース取り込みとレプリケーション ジョブのParquetデータファイルをローカルの個人用ストレージの場所にステージングできます。データ保持期間は7日間です。また、[データベースホスト]の値も指定する必要があります。Unity Catalogを使用する場合は、個人用ストレージの場所が自動的にプロビジョニングされます。
Databricksアンマネージドテーブルで個人用ステージングの場所を使用することはできません。
注: 接続を確立した後にクラスタを切り替えることはできません。
ボリュームパス
Databricksのボリューム内のファイルへの絶対パス。
次の形式でパスを指定します。
/Volumes/<catalog_identifier>/<schema_identifier>/<volume_identifier>/<path>
Databricksホスト
Databricksアカウントが属するエンドポイントのホスト名。
このプロパティは、汎用クラスタとジョブクラスタにのみ必要です。SQLウェアハウスには適用されません。
Databricksホストは、JDBC URLから取得することができます。このURLは、Databricks汎用クラスタのJDBCまたはODBCの[詳細オプション]で確認できます。
次の例に、JDBC URLのDatabicksホストを示します。
jdbc:spark://<Databricks Host> :443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<Org Id>/<Cluster ID>;AuthMech=3;UID=token;PWD=<personal-access-token>
Databricksホスト、組織Id、およびクラスタIDのPWDの値は常に<personal-access-token> です。
クラスタID
クラスタのID。
このプロパティは、汎用クラスタとジョブクラスタにのみ必要です。SQLウェアハウスには適用されません。
クラスタIDは、JDBC URLから取得できます。このURLは、Databricks汎用クラスタのJDBCまたはODBCの[詳細オプション]で確認できます
次の例に、JDBC URLのクラスタIDを示します。
jdbc:spark://<Databricks Host>:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/<Org Id>/<Cluster ID> ;AuthMech=3;UID=token;PWD=<personal-access-token>
組織ID
Databricksのワークスペースの一意の組織ID。
このプロパティは、汎用クラスタとジョブクラスタにのみ必要です。SQLウェアハウスには適用されません。
組織IDは、JDBC URLから取得できます。このURLは、Databricks汎用クラスタのJDBCまたはODBCの[詳細オプション]で確認できます
次の例に、JDBC URLの組織IDを示します。
jdbc:spark://<Databricks Host>:443/ default;transportMode=http; ssl=1;httpPath=sql/ protocolv1/o/<Organization ID> / <Cluster ID>;AuthMech=3;UID=token; PWD=<personal-access-token>
最小ワーカー数
Sparkジョブに使用される最小のワーカーノードの数。最小値は1です。
このプロパティは、ジョブクラスタにのみ必要です。SQLウェアハウスと汎用クラスタには適用されません。
最大ワーカー数
Sparkジョブに使用される最大のワーカーノードの数。自動スケーリングを行わない場合は、最大ワーカー数を最小ワーカー数と同じ値に設定するか、最大ワーカー数を設定しないでください。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
DBランタイムバージョン
ジョブクラスタに接続してマッピングを処理するときに生成するジョブクラスタのバージョン。
このプロパティは、ジョブクラスタにのみ必要です。SQLウェアハウスと汎用クラスタには適用されません。
Databricksランタイムバージョン9.1 LTSまたは13.3 LTSを選択します。
ワーカーノードタイプ
Sparkジョブの実行に使用されるワーカーノードインスタンスタイプ。
このプロパティは、汎用クラスタとジョブクラスタにのみ必要です。SQLウェアハウスには適用されません。
例えば、AWSのワーカーノードタイプはi3.2xlargeにすることができます。AzureのワーカーノードタイプはStandard_DS3_v2にすることができます。
ドライバノードタイプ
Sparkワーカーからデータを収集するために使用されるドライバノードインスタンスタイプ。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
例えば、AWSのドライバノードタイプはi3.2xlargeにすることができます。AzureのドライバノードタイプはStandard_DS3_v2にすることができます。
ドライバノードタイプを指定しない場合、Databricksはワーカーノードタイプのフィールドで指定した値を使用します。
インスタンスプールID
Sparkクラスタに使用されるインスタンスプールID。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
マッピングを実行するために インスタンスプールIDを指定すると、次の接続プロパティは無視されます。
- ドライバノードタイプ- EBSボリューム数- EBSボリュームタイプ- EBSボリュームサイズ- Elastic Diskを有効にする- ワーカーノードタイプ- ゾーンIDエラスティックディスク
クラスタによる追加のディスク容量の取得を有効にします。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
Sparkワーカーのディスク容量が不足している場合は、このオプションを有効にします。
Spark設定
データ取り込みおよびレプリケーション タスクには適用されません。
Spark環境変数
データ取り込みおよびレプリケーション タスクには適用されません。
AWSステージング環境 次の表に、AWSステージング環境のプロパティを示します。
プロパティ
説明
S3認証モード
Amazon S3に接続するための認証モード。
次のいずれかの認証モードを選択します。
S3アクセスキー
Amazon S3バケットにアクセスするためのキー。
S3シークレットキー
Amazon S3バケットにアクセスするためのシークレットキー。
S3データバケット
Databricksデータを格納するための既存のS3バケット。
S3ステージングバケット
ステージングファイルを保存するための既存のバケット。
S3 VPCエンドポイントタイプ
Amazon S3用のAmazon Virtual Private Cloudエンドポイントのタイプ。
VPCエンドポイントを使用して、Amazon S3とのプライベート通信を有効にすることができます。
次のいずれかのオプションを選択します。
- なし。VPCエンドポイントを使用しない場合に選択します。- インタフェースエンドポイント。サブネットのIPアドレス範囲のプライベートIPアドレスを使用しているインタフェースエンドポイント経由でAmazon S3とのプライベート通信を確立する場合に選択します。これは、AWSのサービス宛てのトラフィックのエントリポイントとして機能します。S3のエンドポイントDNS名
Amazon S3インタフェースエンドポイントのDNS名。
アスタリスク記号をDNS名内のbucket キーワードで置き換えます。
DNS名は以下の形式で入力します。
bucket.<インタフェースエンドポイントのDNS名>
例: bucket.vpce-s3.us-west-2.vpce.amazonaws.com
IAMロールARN
動的に生成された一時的なセキュリティ資格情報を使用するためにユーザーに引き継がれたIAMロールの Amazon Resource Number(ARN)。
一時的なセキュリティ資格情報を使用してAmazon S3ステージングバケットにアクセスする場合はこのプロパティの値を設定します。
IAMロールのARNの取得方法の詳細については、AWSのマニュアル を参照してください。
ロールの引き受けにEC2ロールを使用
オプション。EC2ロールがIAMロールARNオプションで指定された別のIAMロールを引き受けることができるようにするには、このチェックボックスをオンにします。
EC2ロールには、同じAWSアカウントまたは異なるAWSアカウントからIAMロールを引き受けるためのアクセス許可がアタッチされたポリシーが必要です。
STS VPCエンドポイントタイプ
AWS Security Token Service用のAmazon Virtual Private Cloudエンドポイントのタイプ。
VPCエンドポイントを使用して、Amazon Security Token Serviceとのプライベート通信を有効にすることができます。
次のいずれかのオプションを選択します。
- なし。VPCエンドポイントを使用しない場合に選択します。- インタフェースエンドポイント。サブネットのIPアドレス範囲のプライベートIPアドレスを持つインタフェースエンドポイント経由でAmazon Security Token Serviceとのプライベート通信を確立する場合に選択します。AWS STSのエンドポイントDNS名
AWS STSインタフェースエンドポイントのDNS名。
例: vpce-01f22cc14558c241f-s8039x4c.sts.us-west-2.vpce.amazonaws.com
S3サービスリージョナルエンドポイント
S3データバケットとS3ステージングバケットに、リージョン固有のS3リージョナルエンドポイントを介してアクセスする必要がある場合のS3リージョナルエンドポイント。
このプロパティは、SQLウェアハウスでは省略可能です。汎用クラスタとジョブクラスタには適用されません。
デフォルトはs3.amazonaws.com です。
S3リージョン名
アクセスするバケットが存在するAWSクラスタリージョンです。
[JDBC URL]接続プロパティで指定したカスタムJDBC URLにクラスタリージョン名が含まれていない場合にクラスタリージョンを選択します。
ゾーンID
DatabricksジョブクラスタのゾーンID。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
実行時に特定のゾーンでDatabricksジョブクラスタを作成する場合にのみ、ゾーンIDを指定します。
例: us-west-2a 。
注: ゾーンは、Databricksアカウントが存在する場所と同じリージョンにある必要があります。
EBSボリュームタイプ
クラスタで起動されるEBSボリュームのタイプ。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
EBSボリューム数
インスタンスごとに起動されるEBSボリュームの数。最大10までのボリュームを選択できます。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
注: Databricks接続では、インスタンスストアを使用せずにノードタイプに少なくとも1つのEBSボリュームを指定してください。そうしないと、クラスタの作成は失敗します。
EBSボリュームサイズ
インスタンスに対して起動される単一のEBSボリュームのサイズ(GiB単位)。
このプロパティは、ジョブクラスタでは省略可能です。SQLウェアハウスと汎用クラスタには適用されません。
Azureステージング環境 次の表に、Azureステージング環境のプロパティを示します。
プロパティ
説明
ADLSストレージアカウント名
Microsoft Azure Data Lake Storageアカウントの名前。
ADLSクライアントID
Active DirectoryでOAuth認証を完了するためのアプリケーションのID。
ADLSクライアントシークレット
Active DirectoryでOAuth認証を完了するためのクライアントシークレットキー。
ADLSテナントID
データの書き込みに使用するMicrosoft Azure Data Lake StorageディレクトリのID。
ADLSエンドポイント
クライアントIDとクライアントシークレットに基づく認証が完了するOAuth 2.0トークンエンドポイント。
ADLSファイルシステム名
Databricksデータを格納するための既存のファイルシステムの名前。
ADLSステージングファイルシステム名
ステージングデータを格納するための既存のファイルシステムの名前。
JDBC URLパラメータ Databricks接続の追加のJDBC URLパラメータフィールドを利用して、Databricksへの接続に必要な追加パラメータをカスタマイズおよび設定できます。
Databricks接続では、追加のJDBC URLパラメータとして次のようなプロパティを設定することができます。
• プロキシサーバーを使用してDatabricksに接続するには、次のパラメータを入力します。jdbc: spark://<Databricksホスト>:443/default;transportMode=http;ssl=1;AuthMech=3;httpPath=/sql/1.0/warehouses/219fe3013963cdce; UseProxy=<Proxy=true>;ProxyHost=<プロキシホストのIPアドレス>;ProxyPort=<プロキシサーバーのポート番号>;ProxyAuth=<Auth_true>;
注: データ取り込みおよびレプリケーション では、プロキシサーバーを使用したDatabricksへの接続はサポートされていません。
• SSL対応のDatabricksに接続するには、JDBC URLに次の形式で値を指定します。jdbc:spark://<Databricks Host>:443/default;transportMode=http; ssl=1 ;AuthMech=3;httpPath=/sql/1.0/endpoints/<SQL endpoint cluster ID>;
個人用ステージングの場所についてのルールおよびガイドライン ステージング環境として個人用ステージングの場所を選択すると、データは最初にJavaの一時的な場所にステージングされ、次にUnityカタログの個人用ステージングの場所にコピーされます。タスク が正常に実行された後に、ステージングされたファイルはどちらも削除されます。
ただし、データを別のディレクトリにステージングするには、Administratorサービスのシステム構成設定のJVMオプションでDTMプロパティ-Djava.io.tmpdir=/my/dir/path を設定します。
別のディレクトリでのデータステージングを有効にするには、読み取りおよび書き込み権限と、ディレクトリにデータをステージングするための十分なディスク領域が必要です。
ステージング用のDatabricks接続プロパティで個人用ステージングの場所を指定する場合は、次のルールとガイドラインを考慮してください。
• SQLウェアハウスJDBC URLでは、Unity対応カタログのみを指定できます。• OAuth Machine-to-Machine認証を使用するステージング環境として、個人用ステージングの場所を使用することはできません。• マッピングはSQL ELTの最適化 なしで実行されます。• データはフォルダstage://tmp/<user_name> にステージングされます。ここで、<user_name> は接続で提供されるDatabricksトークンから選択され、これにはAWSおよびAzureのルートの場所にある個人用ステージングの場所への読み取りおよび書き込みアクセス権が必要となります。重要: 2024年10月リリースから、個人用ステージングの場所は非推奨になりました。現在のリリースではこの機能を使用できますが、Informaticaは将来のリリースでこの機能のサポートを終了する予定です。ボリュームを使用してデータをステージングすることをお勧めします。