View a markdown version of this page

在 AWS PCS 中使用 Slurm 重新啟動運算節點 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中使用 Slurm 重新啟動運算節點

使用 Slurm 的原生重新開機命令來解決效能問題、清除資源問題,或從降級狀態復原,而不會損失 EC2 執行個體容量。

先決條件

  • Slurm Admin 權限 (根使用者存取)

  • 存取 AWS PCS 叢集中的登入節點

程序

  1. 透過 EC2 主控台連線至登入節點。

    1. 在 EC2 主控台中,選擇 Instances (執行個體)

    2. 選取您的登入節點執行個體。

    3. 選擇連線

  2. 使用 sinfo或 識別目標運算節點名稱scontrol show node

    sinfo # or scontrol show node
  3. 使用以下其中一個選項執行重新啟動命令:

    警告

    請勿將 nextstate=DOWNscontrol reboot命令搭配使用。此參數會將節點標記為運作狀態不佳,並觸發執行個體替換。

    • 基本重新啟動 (等待節點變成閒置):

      scontrol reboot nodename
    • 立即重新啟動 (在任務完成時清空節點並重新啟動):

      scontrol reboot ASAP nodename
    • 以下列原因重新啟動:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • 以恢復狀態重新啟動:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. 使用 監控重新啟動進度scontrol show node

    scontrol show node nodename
  5. 驗證節點在重新啟動完成後返回服務。