

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 AWS PCS 中使用 Slurm 重新啟動運算節點
<a name="slurm-reboot-procedure"></a>

使用 Slurm 的原生重新開機命令來解決效能問題、清除資源問題，或從降級狀態復原，而不會損失 EC2 執行個體容量。

## 先決條件
<a name="slurm-reboot-procedure-prerequisites"></a>
+ Slurm Admin 權限 （根使用者存取）
+ 存取 AWS PCS 叢集中的登入節點

## 程序
<a name="slurm-reboot-procedure-steps"></a>

1. 透過 EC2 主控台連線至登入節點。

   1. 在 EC2 主控台中，選擇 **Instances (執行個體)**。

   1. 選取您的登入節點執行個體。

   1. 選擇**連線**。

1. 使用 `sinfo`或 識別目標運算節點名稱`scontrol show node`。

   ```
   sinfo
   # or
   scontrol show node
   ```

1. 使用以下其中一個選項執行重新啟動命令：
**警告**  
請勿將 `nextstate=DOWN`與 `scontrol reboot`命令搭配使用。此參數會將節點標記為運作狀態不佳，並觸發執行個體替換。
   + 基本重新啟動 （等待節點變成閒置）：

     ```
     scontrol reboot {{nodename}}
     ```
   + 立即重新啟動 （在任務完成時清空節點並重新啟動）：

     ```
     scontrol reboot ASAP {{nodename}}
     ```
   + 以下列原因重新啟動：

     ```
     scontrol reboot ASAP reason="troubleshooting" {{nodename}}
     ```
   + 以恢復狀態重新啟動：

     ```
     scontrol reboot ASAP nextstate=RESUME {{nodename}}
     ```

1. 使用 監控重新啟動進度`scontrol show node`。

   ```
   scontrol show node {{nodename}}
   ```

1. 驗證節點在重新啟動完成後返回服務。