翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS での Slurm AWS の再起動に関する問題のトラブルシューティング
ノードの再起動の問題が発生した場合は、まず を使用してノードのステータスを確認しますscontrol show node 。次に、Slurm (slurmctld と slurmd) とシステムログの両方の CloudWatch ログを調べて、潜在的なエラーを特定します。nodename
基本的なトラブルシューティングを行うには、ネットワーク接続を確認し、セキュリティグループの設定を確認し、再起動後に必要なサービスがすべて実行されていることを確認します。基本的なトラブルシューティング手順後も問題が解決しない場合は、 AWS サポートにお問い合わせください。サポートに連絡するときは、関連するログの抜粋、ノードのステータス情報、再起動試行のタイムラインを提供して、解決プロセスを迅速化します。
その他のリソース
-
CloudWatch を使用した AWS PCS インスタンスのモニタリングについては、Amazon CloudWatch AWS を使用した PCS インスタンスのモニタリング」を参照してください。
-
一般的なトラブルシューティングヘルプについては、「AWS Parallel Computing Service の問題のトラブルシューティング」を参照してください。
-
Slurm のドキュメントについては、「Slurm トラブルシューティングガイド
」を参照してください。