本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS PCS 中使用 Slurm 重新啟動運算節點
使用 Slurm 的原生重新開機命令來解決效能問題、清除資源問題,或從降級狀態復原,而不會損失 EC2 執行個體容量。
先決條件
-
Slurm Admin 權限 (根使用者存取)
-
存取 AWS PCS 叢集中的登入節點
程序
-
透過 EC2 主控台連線至登入節點。
-
在 EC2 主控台中,選擇 Instances (執行個體)。
-
選取您的登入節點執行個體。
-
選擇連線。
-
-
使用
sinfo或 識別目標運算節點名稱scontrol show node。sinfo # or scontrol show node -
使用以下其中一個選項執行重新啟動命令:
警告
請勿將
nextstate=DOWN與scontrol reboot命令搭配使用。此參數會將節點標記為運作狀態不佳,並觸發執行個體替換。-
基本重新啟動 (等待節點變成閒置):
scontrol rebootnodename -
立即重新啟動 (在任務完成時清空節點並重新啟動):
scontrol reboot ASAPnodename -
以下列原因重新啟動:
scontrol reboot ASAP reason="troubleshooting"nodename -
以恢復狀態重新啟動:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
使用 監控重新啟動進度
scontrol show node。scontrol show nodenodename -
驗證節點在重新啟動完成後返回服務。