在 AWS PCS 中使用 Slurm 重新啟動運算節點 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中使用 Slurm 重新啟動運算節點

AWS PCS 支援 Slurm 的原生scontrol reboot命令。使用此命令重新啟動運算節點,無需更換 EC2 執行個體。其他重新啟動方法 (Amazon EC2 主控台、 AWS CLI、自動化修補程式或系統維護) 會導致 AWS PCS 認為 EC2 執行個體運作狀態不佳並予以取代。

Slurm 重新開機的優點

Slurm 重新開機為叢集維護提供了幾個優點:

  • 保留容量 – 避免將容量受限的 EC2 執行個體遺失給其他客戶。

  • 降低成本 – 消除不必要的執行個體替換週期,並繼續對閒置節點計費。

  • 更快的復原 – 相較於執行個體替換,佈建不會延遲。

  • 操作彈性 – 清除記憶體流失、移除暫存檔案,以及從降級狀態復原節點。

何時使用 Slurm 重新啟動

針對常見的操作維護案例使用 Slurm 重新啟動:

  • 故障診斷 – 解決效能問題或無回應的程序,特別是 GPU 節點。

  • 資源清除 – 清除記憶體流失、 中的暫存檔案/tmp,或影響任務效能的卡住程序。

  • 復原 – 在需要完全替換節點之前,從掛載或降級狀態復原節點。

限制

  • 只有 Slurm Admin 使用者 (根使用者) 可以執行重新啟動命令。

  • 重新啟動支援僅限於 scontrol reboot

  • 不支援 RebootProgram 組態。

  • 無主控台界面 – 僅限命令列。