トラブルシューティング > トラブルシューティング > 詳細クラスタのトラブルシューティング
  

詳細クラスタのトラブルシューティング

詳細クラスタのステータスが不明の場合、どうすればよいですか。
クラスタのステータスが不明の場合は、最初にSecure Agentが稼働している事を確認します。エージェントが稼働していない場合は、エージェントを有効にして、クラスタの稼働開始を確認します。
クラスタが始動しない場合は、管理者がクラスタをリストするコマンドを実行できます。コマンド出力が一部または使用中のクラスタ状態を返す場合、管理者はクラスタを削除するコマンドを実行する事ができます。
コマンドの詳細については、Administratorヘルプを参照してください。
詳細クラスタのトラブルシューティングを行うためにccs-operation.logファイルを調べましたが、十分な情報を得られませんでした。他にどこを調べればよいですか。
詳細クラスタのインスタンス専用のcluster-operationログを確認できます。外部コマンドセットの実行が開始されると、ccs-operationログにcluster-operationログへのパスが表示されます。
以下に例を示します。
2020-06-15 21:22:36.094 [reqid:] [T:000057] INFO : c.i.c.s.c.ClusterComputingService [CCS_10400] Starting to run command set [<command set>] which contains the following commands: [
<commands> ;
]. The execution log can be found in the following location: [/data2/home/cldagnt/SystemAgent/apps/At_Scale_Server/35.0.1.1/ccs_home/3xukm9iqp5zeahyrb7rqoz.k8s.local/infa/cluster-operation.log].
指定されたフォルダには、クラスタのインスタンスに属するすべてのcluster-operationログが含まれます。ログを使用して、コマンドセットの完全なstdoutおよびstderr出力ストリームを表示できます。
ログ名の数字はログの生成を示し、各cluster-operationログは最大10 MBです。例えば、外部コマンドの実行中にクラスタインスタンスが38 MBのログメッセージを生成した場合、フォルダには4つのcluster-operationログが含まれます。最新のログのファイル名では0で、最も古いログのファイル名では3です。cluster-operation0.logファイルのメッセージを表示して、最新のエラーを表示できます。
エラスティックサーバーのログレベルをDEBUGに設定すると、ccs-operationログにcluster-operationログと同じ詳細レベルが表示されます。
initスクリプトが失敗したノードの初期化スクリプトログを見つける方法
initスクリプトログを見つけるには、次のタスクを実行します。
  1. 1Secure Agentマシンの次のディレクトリに、ccs-operation.logファイルがあります。
  2. <Secure Agent installation directory>/apps/At_Scale_Server/<version>/ccs_home/
  3. 2ccs-operation.logファイルで、次のようなメッセージを見つけます。
  4. Failed to run the init script for cluster [<cluster instance ID>] on the following nodes: [<cluster node IDs]. Review the log in the following S3 file path: [<cloud platform location>].
  5. 3メッセージで示されているクラウドプラットフォームの場所に移動します。
  6. 4クラスタノードIDを、initスクリプトが失敗したノードのinitスクリプトログファイル名と一致させます。
詳細クラスタの次のエラーメッセージでリソース要件はどのように計算されますか。
2019-04-26T19:04:11.762+00:00 <Thread-16> SEVERE: java.lang.RuntimeException: [java.lang.RuntimeException: The Cluster Computing System rejected the Spark task [InfaSpark0] due to the following error: [[CCS_10252] Cluster [6bjwune8v4bkt3vneokii9.k8s.local] doesn't have enough resources to run the application [spark--infaspark0e6674748-b038-4e39-a2a9-3fd49e63f289infaspark0-driver] which requires a minimum resource of [(KB memory, mCPU)]. The cluster must have enough nodes, and each node must have at least [(KB memory, mCPU)] to run this job.].]
最初のリソース要件は、SparkドライバとSparkエグゼキュータが必要とするリソースの総数です。
2番目のリソース要件は、最低1つのSparkプロセスを実行するための各ワーカーノードの最小リソース要件に基づいて計算されます。
リソースは次の式を使用して計算されます。
Memory: MAX(driver_memory, executor_memory)
CPU: MAX(driver_CPU, executor_CPU)
Sparkプロセスは、SparkドライバプロセスまたはSpark実行者プロセスのいずれかです。クラスタでは、各ノードがドライバまたは実行者のいずれかを実行するための最小要件を満たすノードを2つ使用するか、ドライバと実行者の両方を実行するために十分なリソースを持つ1つのノードを使用する必要があります。
注: ドライバおよびエグゼキュータのリソース要件は、マッピングタスクの次の詳細セッションプロパティを設定する方法に応じて異なります。
最小リソース要件の詳細については、Administratorヘルプを参照してください。
クラウドプラットフォームでSecure Agentマシンをシャットダウンしたが、一部のジョブはまだ実行されている。
エージェントマシンをシャットダウンすると、エージェントは新しいマシンで起動しますが、ジョブは新しいマシンに引き継がれません。
Monitorで、ジョブをキャンセルして再度実行します。新しいマシンのエージェントがジョブの処理を開始します。
この問題を回避するには、Administratorヘルプのエージェントマシンをシャットダウンする手順を参照してください。