Microsoft Azure Data Lake Storage Gen2コネクタ > Microsoft Azure Data Lake Storage Gen2のマッピング > マッピングでのMicrosoft Azure Data Lake Storage Gen2ソース
  

マッピングでのMicrosoft Azure Data Lake Storage Gen2ソース

マッピングでは、単一のMicrosoft Azure Data Lake Storage Gen2オブジェクトを表すようにソーストランスフォーメーションを設定できます。
以下の表に、ソーストランスフォーメーションで設定できるMicrosoft Azure Data Lake Storage Gen2ソースプロパティを示します。
プロパティ
説明
接続
ソース接続の名前。ソース接続を選択するか、[新しいパラメータ]をクリックして、ソース接続の新しいパラメータを定義します。
実行時にパラメータを上書きする場合は、パラメータの作成時に[実行時にパラメータのオーバーライドを許可する]オプションを選択します。タスクを実行すると、エージェントはタスク詳細セッションプロパティで指定されたファイルからパラメータを使用します。パラメータファイルが正しい形式であることを確認します。
パラメータ化されていないMicrosoft Azure Data Lake Storage Gen2接続とパラメータ化されたMicrosoft Azure Data Lake Storage Gen2接続を切り替えると、詳細プロパティ値が保持されます。
ソースタイプ
[単一オブジェクト]または[パラメータ]を選択します。
オブジェクト
ソースオブジェクトの名前。
ヘッダーまたはファイルデータに特殊文字が含まれていないことを確認してください。
パラメータ
ソースオブジェクトの既存のパラメータを選択するか、[新しいパラメータ]をクリックしてソースオブジェクトの新しいパラメータを定義します。[パラメータ]プロパティは、ソースタイプとして[パラメータ]を選択した場合にのみ表示されます。
ソースオブジェクトをパラメータ化するときは、パラメータのデフォルト値にファイルシステムを含む完全なオブジェクトパスを指定します。
実行時にパラメータを上書きする場合は、パラメータの作成時に[実行時にパラメータのオーバーライドを許可する]オプションを選択します。タスクを実行すると、エージェントはタスク詳細セッションプロパティで指定されたファイルからパラメータを使用します。パラメータファイルが正しい形式であることを確認します。
形式
Microsoft Azure Data Lake Storage Gen2コネクタがMicrosoft Azure Data Lake Storage Gen2からのデータの読み取りに使用するファイル形式。
注: ソースファイルが空でないことを確認してください。
次のファイル形式タイプの中から選択できます。
  • - Flat
  • - Avro
  • - Parquet
  • - JSON。上限は1 GBです。
  • - ORC
  • - 構造の検出1
  • - Delta2
デフォルトは[なし]です。形式タイプとして[なし]を選択した場合、Microsoft Azure Data Lake Storage Gen2コネクタはデータをMicrosoft Azure Data Lake Storage Gen2ファイルからバイナリ形式で読み取ります。
注: Microsoft Azure Data Lake Storage Gen2のDelta Lakeを読み取る場合は、Deltaファイル形式を使用します。
詳細については、ファイル形式オプションを参照してください。
インテリジェント構造モデル1
[構造の検出]形式タイプに適用されます。サンプルファイルの中から基礎となるパターンを判断し、同じデータと構造を持つファイルのモデルを自動生成します。
モデルをトランスフォーメーションに関連付けるには、次のいずれかのオプションを選択します。
  • - 選択。既存のモデルを選択します。
  • - 新規。新しいモデルを作成します。モデルを作成するには、[新規を設計]を選択します。選択したサンプル入力に基づいてモデルを生成するには、インテリジェント構造検出[サンプルファイルから自動生成]を選択します。
次のオプションのいずれかを選択して、XMLベースの階層スキーマに対してXMLソースオブジェクトを検証します。
  • - ソースオブジェクトでは検証は不要です。
  • - ソースオブジェクトでは階層スキーマに対する検証が必要です。XMLソースオブジェクトを既存または新規の階層スキーマに対して検証するように選択します。
マッピングタスクの作成時に、[ランタイムオプション]タブで、データ統合がスキーマの不一致を処理する方法を設定します。一致しないファイルをスキップしてタスクの実行を続行するか、一致しない最初のファイルに遭遇したときにタスクを停止するかどうかを選択できます。
詳細については、「コンポーネント」を参照してください。
1詳細モードのマッピングにのみ適用されます。
2マッピングにのみ適用されます。
以下の表に、Microsoft Azure Data Lake Storage Gen2ソース詳細プロパティを示します。
プロパティ
説明
同時スレッド1
Microsoft Azure Data Lake Storage Gen2からデータを抽出するための同時接続数。サイズの大きいファイルまたはオブジェクトを読み取る場合は、複数のスレッドを生成してデータを処理できます。サイズの大きいファイルを複数の小さい部分に分割するには、[ブロックサイズ]を設定します。
デフォルト値は4です。最大値は10です。
ファイルシステム名のオーバーライド
デフォルトのファイルシステム名をオーバーライドします。
ソースタイプ
データの読み取り元のソースのタイプを選択します。次のソースタイプを選択することができます。
  • - ファイル
  • - ディレクトリ
デフォルトは[ファイル]です。
ワイルドカード文字を許可
ディレクトリソースタイプにワイルドカード文字を使用するかどうかを指定します。
詳細については、ワイルドカード文字を参照してください。
ディレクトリのオーバーライド
データの読み取りに使用するMicrosoft Azure Data Lake Storage Gen2ディレクトリ。デフォルトはルートディレクトリです。実行時に指定されたディレクトリパスで、接続の作成時に指定されたパスが上書きされます。
絶対ディレクトリパスまたは相対ディレクトリパスを指定できます。
  • - 絶対パス - Secure Agentは、指定したファイルシステムでこのディレクトリパスを検索します。
  • 絶対パスの例: Dir1/Dir2
  • - 相対パス - Secure Agentは、オブジェクトのネイティブディレクトリパスでこのディレクトリパスを検索します。
  • 相対パスの例: /Dir1/Dir2
    相対パスを使用すると、インポートされたオブジェクトパスが、実行時にメタデータの取得中に使用されるファイルパスへ追加されます。
ディレクトリをオーバーライドするためにルートディレクトリ(/)を指定しないでください。
ファイル名のオーバーライド
ソースオブジェクト。データの読み取り元のファイルを選択します。実行時に指定したファイルによって、オブジェクトに指定したファイルが上書きされます。
ブロックサイズ1
フラットファイル形式に適用されます。大きなファイルを指定された小さなブロックサイズに分割します。サイズの大きいファイルを読み取る場合は、ファイルを小さな部分に分割し、同時接続を設定して、データを並列処理するために必要な数のスレッドを生成してください。
ブロックサイズに整数値を指定します。
バイト単位のデフォルト値は8388608です。
タイムアウト間隔
該当なし。
再帰的なディレクトリの読み取り
サブディレクトリに格納されているオブジェクトをマッピングで読み取るかどうかを示します。
詳細については、サブディレクトリからのファイルの読み取りを参照してください。
増分ファイルロード2
詳細モードのマッピングでソースとしてディレクトリを使用する場合に、ファイルを段階的にロードするかどうかを示します。
ファイルを段階的にロードすると、マッピングタスクは、マッピングタスクが最後に実行されてから変更されたディレクトリ内のファイルのみを読み取って処理します。
詳細については、ファイルの増分ロードを参照してください。
圧縮形式
圧縮データをソースから読み取ります。
次のいずれかのオプションを選択します。
  • - なし。Snappy圧縮を使用するAvroファイル、ORCファイル、およびParquetファイルを読み取る場合に選択します。圧縮されたファイルの拡張子は、 .snappyになります。
  • 圧縮したJSONファイルを読み取ることはできません。
  • - Gzip。Gzip圧縮を使用するAvroフラットファイルおよびParquetファイルを読み取る場合に選択します。圧縮されたファイルの拡張子は、.gzになります。
圧縮したフラットファイルのデータをプレビューすることはできません。
中間ディレクトリ1
オプション。フラットファイルとJSONファイルに適用されます。
Secure Agentマシンのステージングディレクトリへのパス。
Microsoft Azure Data Lake Storage Gen2からデータを読み取るときにファイルをステージングするステージングディレクトリを指定します。ディレクトリに十分なスペースがあり、ディレクトリへの書き込み権限があることを確認します。
デフォルトのステージングディレクトリは/tmpです。
Hosted Agentを使用する場合、Interimディレクトリを指定することはできません。
トレースレベル
ログファイルに表示される詳細情報の量を設定します。[簡易]、[ノーマル]、[詳細 - 初期化]、[詳細 - データ]から選択できます。デフォルトは[ノーマル]です。
1詳細モードのマッピングには適用されません。
2詳細モードのマッピングにのみ適用されます。

Microsoft Azure Data Lake Storage Gen2ソースのディレクトリソース

データの読み取り元のソースのタイプを選択できます。
詳細ソースプロパティの[ソースタイプ]オプションから次のソースタイプを選択できます。
ソースタイプとして[ディレクトリ]を選択するには、次のルールとガイドラインを使用します。

ワイルドカード文字

Avro、flat、JSON、ORC、またはParquetファイルからデータを読み取る場合は、ワイルドカード文字を使用してソースファイル名を指定することができます。
ソースファイル名にワイルドカード文字を使用するには、ソースタイプを[ディレクトリ]として選択し、詳細ソースプロパティで[ワイルドカード文字を許可]オプションを有効にします。
Avroファイル、JSONファイル、ORCファイル、Parquetファイル、またはフラットファイルを読み取る場合は、? および*というワイルドカード文字を使用して、1つ以上の文字を含む文字列を検索に定義できます。
以下のワイルドカード文字を使用することができます。
? (疑問符)
疑問符(?)の部分に任意の文字を1つ含む文字列を検索します。例えば、ソースファイル名にa?b.txtと入力すると、Secure Agentは次のような名前のファイルからデータを読み取ります。
*(アスタリスク)
アスタリスクマーク(*)の部分に文字のない文字列、または任意の文字を1つ以上含む文字列を検索します。ソースファイル名にa*b.txtと入力すると、Secure Agentは次のような名前のファイルからデータを読み取ります。

ワイルドカード文字のルールとガイドライン

ワイルドカード文字を使用する場合は、次のルールとガイドラインを考慮してください。
マッピング
詳細モードのマッピング

サブディレクトリからのファイルの読み取り

Microsoft Azure Data Lake Storage Gen2のサブディレクトリに格納されているオブジェクトをマッピングで読み取ることができます。
マッピングのフラットファイルと複合ファイルには、再帰読み取りを使用できます。マッピング内のDeltaファイルに対して再帰的な読み取りを使用することはできません。詳細モードのマッピングを作成する際、フラットファイルに対して再帰読み取りを使用することはできません。
再帰読み取りを有効にするには、詳細ソースプロパティでソースタイプを[ディレクトリ]として選択します。サブディレクトリに格納されているオブジェクトを読み取るには、[再帰的なディレクトリの読み取り]詳細ソースプロパティを有効にします。

サブディレクトリからの読み取りに関するルールとガイドライン

サブディレクトリに格納されているオブジェクトを読み取るときは、次のルールとガイドラインを考慮してください。
マッピング
詳細モードのマッピング

ファイルの増分ロード

ディレクトリにソースファイルを増分ロードして、マッピングタスクが最後に実行されてから変更されたファイルのみを読み取って処理することができます。
ファイルの増分ロードは、詳細モードのマッピングからのみ可能です。すべてのソースファイルが同じクラウド環境に存在することを確認してください。
ソースファイルを増分的にロードするには、Microsoft Azure Data Lake Storage Gen2データオブジェクトの詳細読み取りオプションでソースタイプとして[増分ファイルロード]ディレクトリを選択します。
Microsoft Azure Data Lake Storage Gen2からファイルを増分ロードする場合、ジョブは、最終ロード時刻からジョブの実行を開始する5分前に変更されたファイルをロードします。例えば、午後2時にジョブを実行すると、午後1時55分より前に変更されたファイルをジョブがロードします。これは、Microsoft Azure Data Lake Storage Gen2にオブジェクトをアップロードすると、完了するまでに数分かかるためです。
マッピングタスクを設定すると、[増分ファイルロード]セクションには、ファイルを増分ロードするソーストランスフォーメーションと、最後のジョブがファイルのロードを完了した時刻が一覧表示されます。デフォルトでは、実行される次のジョブは、最終ロード時刻の後に変更されたファイルを確認します。
この図は、増分ファイルロードの詳細を示しています
指定したソースディレクトリ内にある変更されたファイルを検索するために、マッピングが使用するロード時刻を上書きすることもできます。増分ファイルロード設定をリセットして、ディレクトリ内の変更されたすべてのファイルの完全なロードを実行することや、マッピングが変更されたファイルを検索するために使用する時刻を設定することもできます。
ParquetやAvroなどの複合ファイル形式を含むディレクトリを増分ロードする詳細モードのマッピングは、前回の実行以降にソースに新しいファイルまたは変更されたファイルがない場合、失敗します。
増分ロードの詳細については、Reprocessing incrementally-loaded source filesの「タスク」を参照してください。

SQL ELTの最適化

Microsoft Azure Data Lake Storage Gen2ソースからMicrosoft Azure Synapse SQLのデータウェアハウスにデータをロードする場合は、完全なSQL ELTの最適化を有効にすることができます。データをMicrosoft Azure Synapse SQLにロードするときに、データウェアハウスのモデルと要件に従ってデータを変換できます。マッピングタスクで完全なSQL ELTの最適化を有効にすると、マッピングロジックがAzure環境にプッシュされ、Azureコマンドが利用されます。詳細については、Microsoft Azure Synapse SQLコネクタのヘルプを参照してください。
サポートされている他のクラウドデータウェアハウスにデータをロードする必要がある場合は、該当するクラウドデータウェアハウスのコネクタのヘルプを参照してください。