データ統合ジョブログファイル

データ統合は、実行中、失敗、および完了したジョブの監視に役立つログファイルを生成します。一部のログファイルには、［マイジョブ］ページ、およびジョブの詳細からアクセスできます。

データ統合は次の種類のログファイルを生成します。

エラー行ファイル

データ統合では、同期タスクおよびマスキングタスクインスタンスのエラー行ファイルが生成されます。エラー行ファイルには、失敗した行と各行の失敗の理由が表示されます。エラー行ファイルには、ソースエラー行の最初の50個のフィールドが含まれます。

例えば、タスクで同じ外部IDの2つのレコードをSalesforceターゲットに挿入しようとすると、エラー行ファイルに次のエラーが表示されます。

Error loading into target [HouseholdProduct__c] : Error received from salesforce.com.Fields [ExternalId__c].Status code [DUPLICATE_VALUE].Message [Duplicate external id specified: 1.0].

セッションログファイル

データ統合は、各ジョブのセッションログファイルを生成します。このログを使用して、さまざまな操作に費やされた時間の概要を確認することができます。

セッションログには、マッピングのコンパイル時間、変換時間、単純化時間、最適化時間、LDTM作成の合計時間、Sparkタスクの送信時間、Sparkタスク[InfaSpark0]の実行開始時刻と終了時刻、およびLDTM操作の合計実行時間が示されます。

ジョブが失敗した場合は、まず最初にジョブのトラブルシューティングに役立つログファイルを分析します。

拒否ファイル

データ統合は、エラー行を含むマッピングまたはマッピングタスクで、フラットファイルとOracleターゲットごとに拒否ファイルを作成します。拒否ファイルには、拒否されたそれぞれのターゲット行とその行が拒否された理由に関する情報が含まれます。データ統合は、拒否ファイルを次のデフォルトフォルダに保存します。

$PMBadFileDir/<task federated ID>

実行プラン

データ統合は、詳細クラスタが詳細モードのマッピングでデータロジックを実行するために使用するScalaコードを示す実行プランを生成します。マッピングでスカラコードを使用して問題をデバッグできます。

エージェントジョブログ

データ統合は、Secure Agentが詳細モードのマッピングのSpark実行ワークフローを詳細クラスタにプッシュして処理するために使用するロジックを示すエージェントジョブログを生成します。

エージェントのジョブログには、メータリング、アプリケーションがクラスタに送信された時刻、アプリケーションが完了した時刻などの情報が含まれます。このログは、セッションログ内のSparkタスク実行の遅延のトラブルシューティングに役立ち、SparkタスクがSecure Agentで処理されたタイミングを確認することができます。

SparkドライバおよびSparkエグゼキュータログ

詳細クラスタは、SparkドライバとSparkエグゼキュータログを生成して、クラスタがジョブの実行に使用するロジックを表示します。これらのログを使用して、Sparkプロセスの問題やエラーを特定します。このログには、作成中のさまざまなエグゼキュータと、開始中または完了したタスクに関する情報も含まれています。

初期化スクリプトログ

初期化スクリプトが詳細クラスタで実行される場合、クラスタはスクリプト出力を表示するinitスクリプトログを生成します。

cloud-initログ

初期化スクリプトが詳細クラスタで実行される場合、クラスタは、クラスタノードがどのように初期化およびブートストラップされたかに関する情報を含むcloud-initログを生成します。cloud-initログを使用して、初期化スクリプトの実行に失敗したかどうかを確認できます。

注: cloud-initログは、AWS環境でのみ表示できます。

Sparkイベントログ

詳細クラスタは、クラスタで実行されるタスクのランタイムイベントをストリーミングするSparkイベントログを生成します。

Sparkイベントログは、アプリケーションの実行中にさまざまなイベントをJSONエンコード形式で記録します。このログには、アプリケーション内のさまざまなジョブ、さまざまなステージ、個々のタスク、エンティティ間のデータのやり取りなど、Sparkアプリケーションに関連付けられたイベントが含まれています。

また、Sparkイベントログには、ドライバ情報、エグゼキュータの作成、エグゼキュータによるメモリ使用量、環境設定、Sparkアプリケーションの論理計画および物理計画などのソフトウェアインフラストラクチャに関連するイベントが含まれています。このログを使用して、Sparkアプリケーションの実行の各ステップ中に発生したイベントを追跡します。

Sparkイベントログを見つけるには、Sparkドライバログを開いてSingleEventLogFileWriterを検索します。検索の結果に、Sparkイベントログのパスが表示されます。例:

23/01/09 04:38:35 INFO SingleEventLogFileWriter - Logging events to s3://bucket/log_location_in_cluster_condifuration/eventLogs/atscaleagent/spark-a7bea557ede14382b4807d35b5404b97.inprogress

アプリケーションが完了した後に、s3://bucket/log_location_in_cluster_condifuration/eventLogs/atscaleagent/の場所からファイルspark-a7bea557ede14382b4807d35b5404b97としてSparkイベントログをダウンロードします。

Sparkイベントログの内容を確認するには、そのログをSpark履歴サーバーにインポートし、履歴サーバーモニタを使用してログを調べます。次のタブを確認します。

- ［ジョブ］タブには、すべての詳細なメトリックが表示されます。
- ［ステージ］タブには、完了したすべてのステージがリストされます。成功または失敗したタスクの合計数、入出力データ量、シャッフル読み取りおよびシャッフル書き込みデータ量に関する詳細情報を確認できます。任意のステージをクリックすると、DAG視覚化図が表示されます。
- ［環境］タブには、Sparkジョブの実行に使用されるSpark関連のパラメータが表示されます。
- ［エグゼキュータ］タブには、エグゼキュータポッドとドライバポッドに関する詳細情報が表示されます。

詳細については、Apache Sparkのドキュメントを参照してください。

詳細ログ

詳細ログの場所には、Sparkドライバおよびエージェントのジョブログとは別に、Sparkエグゼキュータログが含まれています。エグゼキュータログは、個々のエグゼキュータに関する問題のトラブルシューティングに役立ちます。