メインコンテンツにスキップ

ジョブログの理解: ジョブ進捗の監視と問題のトラブルシューティング

ジョブログを読み取り、ジョブの進捗を監視し、時間情報を理解し、よくあるジョブの問題をトラブルシューティングする方法を説明します。

今日アップデートされました

ジョブログとは?

ジョブログは、ジョブの進行状況を包括的にまとめたものであり、ジョブに関連する警告やエラーを特定するための主要な情報源です。ジョブログには、ジョブの「Status」タブからアクセスできます。

ジョブログ内の重要な情報

ジョブログには、ジョブの監視やトラブルシューティングに役立つ、いくつかの重要な情報が含まれています。

1. 時間情報

ジョブログには、ジョブ本体および基盤となるクラスターの正確な開始時刻と終了時刻が表示されます。すべてのタイムスタンプは、ユーザープロフィールで設定されたタイムゾーンに基づいて表示されます。

2. 課金対象期間

ログには、ジョブクラスターの合計課金対象時間が表示され、ジョブ実行に伴うコストの把握に役立ちます。

3. 警告メッセージ

ジョブの開始に想定より時間がかかっている場合、ログに警告メッセージが表示されます。一般的な原因は次のとおりです:

  • クラウドサービスプロバイダー側のキャパシティ不足

  • 利用可能なライセンストークンを待機していることによるライセンスキューイング


よくあるジョブログメッセージ

これらの一般的なログメッセージを理解することで、ジョブの問題を迅速に診断できます。

ジョブのWalltime超過

このログは、シミュレーションが指定された walltime 制限内に完了せず、その結果クラスターが自動的に停止された場合に表示されます。この場合、次のいずれかの対応が必要になることがあります:

  • 今後のジョブで walltime を増やす

  • シミュレーション設定を最適化する

  • より高性能なハードウェアを使用して実行時間を短縮する

強制停止されたジョブ

このログは、クラスターが手動で強制停止されたときに表示されます。

重要: 強制停止されたジョブでは、結果ファイルはクラスターからダウンロードされません。そのため、停止前に生成された出力が失われる可能性があります。

リソース待機中

このメッセージは、ジョブがキューに入り、利用可能なリソースを待機していることを示します。一般的な原因は次のとおりです:

  • 使用しているソフトウェアのライセンストークン不足

  • クラウドサービスプロバイダー側のキャパシティ制約

リソース待機の問題を解消するには、次の対応を検討してください:

  • 別のハードウェアでジョブを送信する

  • On-Demand Priority ノードを使用する

  • ピーク使用時間帯を避けるようにジョブの実行タイミングを調整する

不明なエラーログ

ジョブで不明なエラーメッセージが繰り返し発生する場合は、Rescale サポートにお問い合わせください。これらのエラーは、技術的な調査が必要な基盤プラットフォームの問題を示している可能性があります。


ジョブログを使用する際のベストプラクティス

  • 長時間実行されるシミュレーションでは、進捗を監視するためにジョブログを定期的に確認する

  • ジョブが失敗した場合や予期しない結果となった場合は、すぐにログを確認する

  • サポートに問い合わせる際は、関連するログエントリを保存またはスクリーンショットしておく

  • 時間情報を活用して、今後のジョブ送信やリソース計画を最適化する

こちらの回答で解決しましたか?