データベース取り込みおよびレプリケーションタスクのトラブルシューティング

この問題は、［カラムの修正］スキーマドリフトオプションが［レプリケート］に設定されていて、［カラムの追加］オプションが［無視］に設定されている場合に発生します。

タスクをデプロイするときに、データベース取り込みとレプリケーションは、サポートされていないデータ型を持つソースカラムに対してターゲットカラムを作成しません。ソースカラムのサポートされていないデータ型を後でサポートされているデータ型に変更した場合、データベース取り込みとレプリケーションはソースに対するカラムの修正操作を処理しますが、変更をターゲットにレプリケートしません。データベース取り込みとレプリケーションがサポートされているデータ型のカラムをターゲットに追加しようとすると、スキーマドリフトオプション［カラムの追加］が［無視］に設定されているため、操作は無視されます。

この状況に対処するには、次の手順を実行します。

この問題は、プライマリキー制約を追加または削除した場合、または既存のプライマリキーに対してカラムを追加または削除した場合に発生します。

初期ジョブと増分ジョブを組み合わせたジョブでソーステーブルの処理を再開するには、ターゲットテーブルをソースと再同期します。

増分ジョブでソーステーブルの処理を再開するには、次の手順を実行します。

このエラーは、スキーマクエリに関連する既知のSnowflakeの問題が原因で発生します。詳細については、Snowflakeのドキュメントを参照してください。

データベース取り込みとレプリケーションでは、多数のソーステーブルが選択されている場合、このエラーによって、Snowflakeターゲットを持つデータベース取り込みとレプリケーションタスクのデプロイに失敗することがあります。

デプロイの失敗に対処するには、ターゲットテーブルを削除します。次に、データベース取り込みとレプリケーションタスクを更新して、ターゲットテーブルを生成する対象として選択するソーステーブルの数を減らします。次に、タスクを再度デプロイしてみます。

オペレーティングシステムに設定されているユーザープロセスの最大数を超えている可能性があります。最大ユーザープロセスのLinux ulimit値がまだunlimitedに設定されていない場合、unlimitedまたはそれ以上の値に設定します。その後、ジョブを再開します。

アセットを、同じ名前のアセットが既に存在する別の場所にコピーしようとすると、データベース取り込みとレプリケーションは、一方に「- Copy 1」などのサフィックスを付けることで両方のアセットを保持するかどうかを尋ねる警告メッセージを表示します。両方のアセットを保持することを選択した場合、データベース取り込みとレプリケーションは名前の長さを検証して、サフィックスが追加されても最大長の50文字を超えないことを確認します。名前の長さが50文字を超えると、コピー操作は失敗します。この場合、アセットを別の場所にコピーし、コピーの名前を変更してから、名前を変更したアセットを元の場所に戻す必要があります。

org.apache.avro.AvroTypeException: Invalid default for field meta_data: null not a {"type":"array"...
org.apache.avro.AvroTypeException: Invalid default for field header: null not a {"type":"record"...

このエラーは、コンシューマが新しいAvroバージョンにアップグレードされたが、古いバージョンのAvroスキーマファイルを引き続き使用しているために発生する可能性があります。

この問題を解決するには、データベース取り込みとレプリケーションが提供する新しいAvroスキーマファイルを使用します。

この問題は、ジョブが多くのソーステーブルを処理している場合に発生することがあります。多くのスキーマを処理するにはConfluentスキーマレジストリが必要です。この問題を解決するには、Confluentスキーマレジストリのkafkastore.timeout.msオプションの値を増やしてみてください。このオプションは、Kafkaストアに対する操作のタイムアウトを設定します。詳細については、Confluentスキーマレジストリのドキュメントを参照してください。

この問題は、ジョブが多くのソーステーブルを処理するように構成されており、ソーステーブルの初期ロード処理が完了する前にGoogle BigQueryターゲット接続がタイムアウトした場合に発生します。この問題を解決するには、Google BigQuery V2ターゲット接続プロパティのタイムアウト間隔を増やします。

データベース取り込みとレプリケーション could not find target table 'table_name' which is mapped to source table 'table_name' when deploying the database ingestion task.

この問題は、Amazon Redshiftがデフォルトでテーブル名とカラム名を小文字として読み取るために発生します。

このエラーを防ぐために、データベースパラメータグループを設定するときに、enable_case_sensitive_identifierパラメータを「true」に設定します。このパラメータの詳細については、AWS Amazon Redshiftのドキュメント（https://docs.aws.amazon.com/redshift/latest/dg/r_enable_case_sensitive_identifier.html）を参照してください。

デプロイ中に新しいDatabricksターゲットテーブルが作成されると、Databricksが使用するHiveメタストアにエントリが追加されます。Hiveメタストアは通常MySQLデータベースです。より具体的に説明すると、カラム名はメタストアのTABLE_PARAMSフィールドに挿入されます。TABLE_PARAMSからのPARAM_VALUEの文字セット照合はlatin1_binであり、文字セットはlatin1です。この文字セットは日本語の文字をサポートしていません。この問題を解決するには、照合がUTF-8_bin、文字セットがUTF-8である外部メタストアを作成します。詳細については、https://docs.microsoft.com/en-us/azure/databricks/kb/metastore/jpn-char-external-metastoreとhttps://kb.databricks.com/metastore/jpn-char-external-metastore.htmlでDatabricksのドキュメントを参照してください。

Unexpected error encountered filling record reader buffer: HadoopExecutionException: The size of the schema/row at ordinal 1 is 1000050 bytes. It exceeds the maximum allowed row size of 1000000 bytes for Polybase.

この問題を修正するには、適切な下限切り捨てポイントを指定し、それをタスクウィザードの［ターゲット］ページのunloadClobTruncationSizeカスタムプロパティで指定します。行にXMLカラムが1つしかない場合は、<実際のスキーマ/行サイズ>と最大行サイズの差の分だけ切り捨てポイントを減らします。例えば、前述のサンプルメッセージに基づいて、1つのXMLカラムを含む行の下限切り捨てポイントを500000 - 50、つまり、499950バイトとして計算します。