翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS で Slurm を使用してコンピューティングノードを再起動 AWS する
Slurm のネイティブ再起動コマンドを使用して、EC2 インスタンス容量を失うことなく、パフォーマンスの問題を解決したり、リソースの問題をクリアしたり、パフォーマンスが低下している状態から回復したりできます。
前提条件
-
Slurm 管理者権限 (ルートユーザーアクセス)
-
PCS AWS クラスター内のログインノードへのアクセス
手順
-
EC2 コンソールを使用してログインノードに接続します。
-
EC2 コンソールで、[Instances] を選択します。
-
ログインノードインスタンスを選択します。
-
接続 を選択します。
-
-
sinfoまたは を使用して、ターゲットコンピューティングノード名を特定しますscontrol show node。sinfo # or scontrol show node -
次のいずれかのオプションを使用して、再起動コマンドを実行します。
警告
scontrol rebootコマンドnextstate=DOWNで を使用しないでください。このパラメータはノードを異常としてマークし、インスタンスの置き換えをトリガーします。-
基本的な再起動 (ノードがアイドル状態になるまで待機):
scontrol rebootnodename -
即時再起動 (ジョブが完了するとノードがドレインされ再起動されます)。
scontrol reboot ASAPnodename -
理由を指定して再起動します。
scontrol reboot ASAP reason="troubleshooting"nodename -
再開状態で再起動します。
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
を使用して再起動の進行状況をモニタリングします
scontrol show node。scontrol show nodenodename -
再起動の完了後にノードがサービスに戻ることを確認します。