Microsoft Fabric OneLakeターゲット
次のリストは、Microsoft Fabric OneLakeターゲットを使用する際の考慮事項を示しています。
- •Microsoft Fabric OneLakeターゲットを持つデータベース取り込みとレプリケーションタスクを定義する場合、ターゲットに適用するソースデータを含む生成された出力ファイルに対してCSV形式、Avro形式、またはParquet形式のいずれかを選択できます。
- •[CSV]出力形式を選択した場合、データベース取り込みとレプリケーションは、ソーステーブルごとに次のファイルをターゲットに作成します。
- - スキーマを記述し、ターゲット上の出力ファイルのいくつかの設定を含むschema.iniファイル。
- - ソースデータを含む、ソーステーブルごとの1つ以上の出力ファイル。データベース取り込みとレプリケーションは、日付と時刻が追加されたソーステーブルの名前に基づいて、これらのテキストファイルに名前を付けます。
schema.iniファイルには、対応する出力ファイルの行の一連のカラムが一覧表示されます。次の表で、schema.iniファイルのカラムについて説明します。
カラム | 説明 |
|---|
ColNameHeader | ソースデータファイルにカラムヘッダーが含まれているかどうかを示します。 |
Format | 出力ファイルの形式を示します。データベース取り込みとレプリケーションはカンマ(,)を使用してカラムの値を区切ります。 |
CharacterSet | 出力ファイルに使用される文字セットを指定します。データベース取り込みとレプリケーションはUTF-8文字セットでファイルを生成します。 |
COL<sequence_number> | カラムの名およびデータ型。 注: - - タスクウィザードの[ターゲット]ページの[詳細]で[操作の追加...]プロパティのいずれかを選択した場合、カラムのリストには、操作のタイプ、時間、所有者、またはトランザクションIDのメタデータカラムが含まれます。
- - [前のイメージを追加]チェックボックスを選択した場合、ソースカラムごとにジョブがUNDOデータのcolumn_name_OLDカラムとREDOデータのcolumn_name_NEWカラムを作成します。
|
重要: schema.iniファイルは編集しないでください。
- •[Avro]出力フォーマットを選択した場合、Avro形式タイプ、ファイル圧縮タイプ、Avroデータ圧縮タイプ、および各ソーステーブルに対して生成されたAvroスキーマ定義を格納するディレクトリを選択できます。スキーマ定義ファイルの命名パターンは、スキーマ名_テーブル名.txtです。
- •Parquet出力形式を選択した場合、必要に応じて、Parquetがサポートする圧縮タイプを選択できます。
- •Microsoft Fabric OneLakeターゲットでは、データベース取り込みとレプリケーションは空のソーステーブルごとに空のディレクトリを作成します。
- •データベース取り込みとレプリケーションの増分ロードジョブ、および初期ロードと増分ロードの組み合わせジョブが、ソースのプライマリキー値をCSV出力形式を使用するこれらのターゲットのいずれかに変更する更新操作をレプリケートする場合、ジョブは各更新レコードをターゲットでの2つのレコード(削除とそれに続く挿入)として処理します。削除には更新前のイメージが含まれています。挿入には同じ行の更新後のイメージが含まれています。
プライマリキー値を変更しない更新操作の場合、データベース取り込みとレプリケーションジョブは各更新を1つの操作として処理し、更新後のイメージのみをターゲットに書き込みます。
注: ソーステーブルにプライマリキーがない場合、データベース取り込みとレプリケーションはすべてのカラムがプライマリキーの一部であるかのようにテーブルを扱います。この場合、各更新操作は、削除とそれに続く挿入として処理されます。
- •データベース取り込みとレプリケーションジョブは、データがMicrosoft Fabric OneLakeターゲットに送信されるときに、16進数形式でバイナリデータをアンロードします。各16進数カラムの値には、「0x」プレフィックスが付いています。出力ファイルを使用してデータをターゲットにロードする場合は、ファイルを編集して「0x」プレフィックスを削除する必要がある場合があります。
Microsoft Fabric OneLakeにデータをレプリケートするためのオープンミラーリングの使用
オープンミラーリングにより、Microsoft Fabric OneLake内のミラーリングされたデータベースへのほぼリアルタイムのレプリケーションが可能になります。
データは最初に、Microsoft Fabric OneLakeのミラーリングされたデータベースに関連付けられたランディングゾーンにレプリケートされます。このレプリケートされたデータはParquetファイル形式で保存され、Microsoft FabricはOneLakeのランディングゾーンから読み取りを行って、ミラーリングされたデータベース内のテーブルを作成または更新します。ミラーリングにより、ソースシステムでの変更が迅速にMicrosoft Fabricに反映され、ミラーリングデータを常に最新の状態に保ちながら、迅速な分析やレポート作成を行うことができるようになります。
ターゲットの準備
Microsoft Fabric OneLakeにデータを読み込むタスクでミラーリングを有効にする前に、次の作業を実行します。
- 1Microsoft Fabricのワークスペースにミラーリングされたデータベースを作成します。
OneLakeは、ミラーリングされたデータベース名とワークスペースに基づいて、固有のランディングゾーンのURLを生成します。タスク設定で使用するために、このランディングゾーンのURLを控えておいてください。
- 2ミラーリングされたデータベースを作成した後に、レプリケーションが自動的に開始されます。ミラーリングされたデータベース設定を確認し、レプリケーションの状態が実行されているかを確認します。
ミラーリングされたデータベースの作成に関する詳細は、Microsoft Fabric OneLakeのマニュアルを参照してください。
タスクの設定
Microsoft Fabric OneLakeにデータをロードする取り込みおよびレプリケーションタスクを設定するには、次の手順を実行します。
- •レプリケーションの失敗を避けるため、選択したそれぞれのソーステーブルにプライマリキーまたは一意キーカラムが定義されていることを確認します。これらのキーは更新や削除の処理を行うために必要です。
- •タスクターゲットのプロパティで、[オープンミラーリング]を有効にし、[ランディングゾーンのURL]の値を入力して、ミラーリングされたデータファイルが正しいMicrosoft Fabric OneLakeパスに書き込まれるようにします。
ランディングゾーンのファイル構造
タスクを実行すると、レプリケートされたデータは、OneLakeランディングゾーン内の次のスキーマおよびテーブルフォルダ構成でParquetファイルに保存されます: <landing‑zone>/<schema>/<table>/
選択したそれぞれのソーステーブルには、次のファイルを含む専用のフォルダがあります。
- •キーカラムとメタデータを指定する_metadata.jsonファイル。
- •順序を維持するために19桁の固定幅数値形式で連番で命名されたParquetデータファイル。例: 00000000000000000001.parquet.
増分変更の場合、Parquetファイルのそれぞれのレコードには、DML操作のタイプ(挿入、更新、または削除)を示す操作行マーカーが含まれます。このマーカーは、infa_operation_typeメタデータカラムから取得されます。これにより、Microsoft Fabric OneLakeによる変更の適用が適切に行われるようになります。
Microsoft Fabric OneLakeは、ランディングゾーンからこれらのParquetファイルを読み取り、ミラーリングされたデータベース内のテーブルを作成または更新します。
制限事項
オープンミラーリングを有効にすると、次のような制限が適用されます。
- •それぞれのテーブルの_metadata.jsonファイルはタスクによって生成されます。タスクデプロイ中に変更を行うことはできません。変更を行うには、タスクを更新してから再デプロイする必要があります。
- •レプリケーションやダウンストリームでの取り込みで障害が発生する可能性があるため、ランディングゾーン内のミラーリングされたデータファイルを変更または削除しないようにしてください。
- •スキーマドリフトを使用すると、ソースデータに新しいカラムが現れた際に、そのカラムが自動的に追加されます。ただし、ソースでカラムが削除された場合、この変更はターゲットには反映されません。
- •1つのミラーリングされたデータベース内に最大500のテーブルをミラーリングできます。