本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS PCS 中使用 Slurm 重新啟動運算節點
AWS PCS 支援 Slurm 的原生scontrol reboot命令。使用此命令重新啟動運算節點,無需更換 EC2 執行個體。其他重新啟動方法 (Amazon EC2 主控台、 AWS CLI、自動化修補程式或系統維護) 會導致 AWS PCS 認為 EC2 執行個體運作狀態不佳並予以取代。
Slurm 重新開機的優點
Slurm 重新開機為叢集維護提供了幾個優點:
-
保留容量 – 避免將容量受限的 EC2 執行個體遺失給其他客戶。
-
降低成本 – 消除不必要的執行個體替換週期,並繼續對閒置節點計費。
-
更快的復原 – 相較於執行個體替換,佈建不會延遲。
-
操作彈性 – 清除記憶體流失、移除暫存檔案,以及從降級狀態復原節點。
何時使用 Slurm 重新啟動
針對常見的操作維護案例使用 Slurm 重新啟動:
-
故障診斷 – 解決效能問題或無回應的程序,特別是 GPU 節點。
-
資源清除 – 清除記憶體流失、 中的暫存檔案
/tmp,或影響任務效能的卡住程序。 -
復原 – 在需要完全替換節點之前,從掛載或降級狀態復原節點。
限制
-
只有 Slurm Admin 使用者 (根使用者) 可以執行重新啟動命令。
-
重新啟動支援僅限於
scontrol reboot。 -
不支援 RebootProgram 組態。
-
無主控台界面 – 僅限命令列。