Amazon S3、Google Cloud Storage、Microsoft Azure Data Lake Storage Gen2、およびMicrosoft Fabric OneLakeターゲット上のCDCファイルのデフォルトのディレクトリ構造 データベース取り込みとレプリケーション ジョブは、Amazon S3、Google Cloud Storage、Microsoft Azure Data Lake Storage Gen2、およびMicrosoft Fabric OneLakeターゲットにディレクトリを作成して、変更データ処理に関する情報を格納します。
次のディレクトリ構造がデフォルトでターゲットに作成されます。
Bucket └───connection_folder └───job_folder ├───cycle │ ├───completed │ │ ├───completed_cycle_folder │ │ │ └───Cycle-timestamp .csv │ │ │ ... │ │ └───completed_cycle_folder │ │ └───Cycle-timestamp .csv │ └───contents │ ├───cycle_folder │ │ └───Cycle-contents-timestamp .csv │ │ ... │ └───cycle_folder │ └───Cycle-contents-timestamp .csv └───data └───table_name ├───data │ ├───cycle_folder │ │ └───table_name _timestamp .csv │ │ ... │ └───cycle_folder │ └───table_name _timestamp .csv └───schema └───V1 └───table_name .schema
次の表に、デフォルト構造に含まれるディレクトリを示します。
フォルダ
説明
connection_folder
データベース取り込みとレプリケーション オブジェクトが含まれています。このフォルダは、Amazon S3接続プロパティの[フォルダパス] フィールド、Microsoft Azure Data Lake Storage Gen2接続プロパティの[ディレクトリパス] フィールド、またはMicrosoft Fabric OneLake接続プロパティの[レイクハウスパス] フィールドで指定されています。
注: このフォルダは、Google Cloud Storageターゲット用には作成されていません。
job_folder
ジョブ出力ファイルが含まれています。このフォルダは、データベース取り込みとレプリケーション タスクウィザードの[ターゲット] ページの[ディレクトリ] フィールドで指定されています。
cycle/completed
各完了CDCサイクルのサブフォルダが含まれています。各完了サイクルサブフォルダには、完了サイクルファイルが含まれています。
cycle/contents
各CDCサイクルのサブフォルダが含まれます。各サイクルサブフォルダには、サイクルコンテンツファイルが含まれています。
data
各テーブルの出力データファイルとスキーマファイルが含まれています。
data/table_name /schema/V1
スキーマファイルが含まれています。
注: 出力ファイルがParquet形式を使用している場合、データベース取り込みとレプリケーションはスキーマファイルをこのフォルダに保存しません。
data/table_name /data
出力データファイルを生成する各CDCサイクルのサブフォルダが含まれています。
サイクルディレクトリ データベース取り込みとレプリケーション は、次のパターンを使用してサイクルディレクトリに名前を付けます。
[dt=]yyyy -mm -dd -hh -mm -ss
データベース取り込みとレプリケーション タスクウィザードの[ターゲット] ページの[ディレクトリタグの追加] チェックボックスを選択すると、サイクルフォルダ名に「dt=」プレフィックスが追加されます。
サイクルコンテンツファイル サイクルコンテンツファイルはcycle/contents/cycle_folder サブディレクトリにあります。サイクルコンテンツファイルには、サイクル中にDMLイベントが発生した各テーブルのレコードが含まれています。サイクル内のテーブルでDML操作が発生しなかった場合、そのテーブルはサイクルコンテンツファイルに表示されません。
データベース取り込みとレプリケーション は、次のパターンを使用してサイクルコンテンツファイルに名前を付けます。
Cycle-contents-timestamp .csv
サイクルコンテンツのcsvファイルには、次の情報が含まれています。
完了サイクルファイル 完了サイクルファイルはcycle/completed/completed_cycle_folder サブディレクトリにあります。データベース取り込みとレプリケーション ジョブは、サイクルが完了した後、このサブディレクトリにサイクルファイルを作成します。このファイルが存在しない場合、サイクルはまだ完了していません。
データベース取り込みとレプリケーション は、次のパターンを使用して完了サイクルファイルに名前を付けます。
Cycle-timestamp .csv
完了サイクルのcsvファイルには、次の情報が含まれています。
• サイクル名• サイクル開始時刻• サイクル終了時刻• サイクル終了時の現在のシーケンス番号• サイクルコンテンツファイルへのパス• サイクル終了の理由有効な理由の値は、以下のとおりです。
- NORMAL_COMMIT。サイクルがDML制限に達した後、またはサイクル間隔の終了後に、コミット操作が発生しました。サイクルはコミット境界でのみ終了できます。- NORMAL_EXPIRY。サイクル間隔が経過したため、サイクルが終了しました。最後の操作はコミットでした。- 複合初期ロードジョブのみ : BACKLOG_COMPLETED。CDCバックログ処理が完了したため、サイクルが終了しました。CDCバックログは、ジョブの組み合わせの初期ロードフェーズ中にキャプチャされたイベントで構成されます。バックログには、初期ロードフェーズの開始時または終了時、および初期ロードフェーズからメインのCDC増分処理への移行中にキャプチャされた可能性のあるDML変更が含まれます。- 複合ロードジョブのみ: INITIAL_LOAD_COMPLETED。初期ロードが完了したため、サイクルが終了しました。- 複合ロードジョブのみ: RESYNC_STARTED。テーブルの再同期が開始されたため、サイクルが終了しました。出力データファイル データファイルには、次の情報を含むレコードが含まれています。