PCS での Slurm AWS の再起動に関するよくある質問

AWS PCS での Slurm 再起動の使用に関する一般的な質問に対する回答を示します。

Slurm 再起動サポートとは

ネイティブ Slurm scontrol reboot コマンドのサポート。このコマンドを使用して、自動インスタンス交換なしでコンピューティングノードを再起動します。これにより、EC2 インスタンスの容量が保持され、運用コストが削減されます。

Slurm 再起動コマンドを使用できるユーザー

再起動コマンドを実行できるのは、Slurm 管理者ユーザー (ルートユーザー) のみです。通常のユーザーはscontrol reboot、ノードに影響を与えずに Slurm からアクセス許可拒否エラーを受け取ります。

再起動中に実行中のジョブはどうなりますか?

デフォルトでは、再起動が発生する前にジョブは正常に完了します。ASAP オプションを使用すると、新しいジョブを防ぐためにノードがドレインされ、現在のジョブが終了した後に再起動されます。ジョブは、即時再起動のためにキャンセルまたは再キューに入れることができます。

これは EC2 コンソールの再起動とどのように異なりますか?

Slurm の再起動は EC2 インスタンスを保持し、置き換えを回避します。一方、EC2 コンソールの再起動は、再起動プロセス中にヘルスチェックが失敗したためにインスタンスを置き換えるためにトリガー PCS をトリガーします。

カスタム再起動スクリプトを設定できますか?

いいえ。RebootProgram 設定は、最初のリリースではサポートされていません。この機能は、カスタムスクリプトをサポートせずに標準の Slurm 再起動動作を使用します。

Slurm の再起動にはどのくらいの時間がかかりますか?

再起動時間は、インスタンスタイプ、顧客の起動プロセス、AMI 設定、ジョブを最初に完了する必要があるかどうかによって異なります。このプロセスには、ジョブの完了、物理的な再起動、ヘルスチェック、スラムデーモン登録の待機が含まれます。

再起動の履歴は確認できますか?

再起動イベントは Slurm ログ (slurmctld と slurmd) に記録され、CloudWatch を介してモニタリングできます。ノードステータスの reason フィールドには、プロセス中の再起動の理由が表示されます。

再起動中にノードが停止した場合はどうなりますか?

ノードが ResumeTimeout 内で再起動プロセスを完了しない場合、DOWN とマークされます。CloudWatch ログにエラーがないか確認し、ネットワーク接続を検証して、スラムログを調べます。問題が解決しない場合は、 AWS サポートにお問い合わせください。

複数のノードを一度に再起動できますか?

はい。再起動コマンドで複数のノードを指定できます。


scontrol reboot ASAP node1,node2,node3

ジョブの完了を待たずにノードを再起動するにはどうすればよいですか?

マルチノードジョブに影響する問題のあるノード、パフォーマンスの大幅な低下、GPU の動作の不安定化などの問題に直面した場合に、ノードをすぐに再起動するには、次の 2 つのオプションがあります。

キャンセルと再起動 – まず、を使用して影響を受けるジョブをキャンセルしてからscancel <job_id>、を使用して即時再起動を開始しますscontrol reboot ASAP <nodename>。実行中のジョブは終了し、ノードの復旧後に再送信する必要があります。
ドレインと再キュー (影響なし) – まずドレインを開始し、で再起動してからscontrol reboot ASAP <nodename>、を使用して影響を受けるジョブを再キューに入れますscontrol requeue <job_id>。これにより、ジョブはキャンセルされるのではなく、保留状態に戻ります。

nextstate=DOWN を指定するとどうなりますか?

を指定するとnextstate=DOWN、再起動後にノードが異常としてマークされ、インスタンスの置き換えがトリガーされます。インスタンスの置き換えを回避するには、nextstate を指定したり、を使用しないでくださいnextstate=RESUME。

その他のリソース

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

再起動をキャンセルする

トラブルシューティング