

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS PCS 中的 Slurm 重新啟動常見問答集
<a name="slurm-reboot-faq"></a>

尋找有關在 AWS PCS 中使用 Slurm 重新啟動的常見問題解答。

**什麼是 Slurm 重新啟動支援？**  
支援原生 Slurm `scontrol reboot`命令。使用此命令無需自動替換執行個體即可重新啟動運算節點，以保留 EC2 執行個體容量並降低營運成本。

**誰可以使用 Slurm 重新啟動命令？**  
只有 Slurm Admin 使用者 （根使用者） 可以執行重新啟動命令。嘗試使用 的一般使用者`scontrol reboot`會收到來自 Slurm 的拒絕許可錯誤，而不會影響節點。

**在重新開機期間執行任務會發生什麼情況？**  
根據預設，任務會在重新啟動之前正常完成。使用 ASAP 選項時，節點會耗盡以防止新任務，並在目前任務完成後重新啟動。任務可以取消或重新排入佇列，以便立即重新啟動。

**這與 EC2 主控台重新啟動有何不同？**  
Slurm 重新啟動會保留 EC2 執行個體並避免取代，而 EC2 主控台重新啟動會觸發 PCS 因為重新啟動程序期間運作狀態檢查失敗而取代執行個體。

**我可以設定自訂重新開機指令碼嗎？**  
否，初始版本不支援 RebootProgram 組態。此功能使用標準 Slurm 重新啟動行為，無需自訂指令碼支援。

**Slurm 重新啟動需要多長時間？**  
重新啟動時間會根據執行個體類型、客戶開機程序、AMI 組態，以及任務是否需要先完成而有所不同。此程序包括等待任務完成、實體重新開機、運作狀態檢查和 slurmd 協助程式註冊。

**我可以看到重新啟動的歷史記錄嗎？**  
重新啟動事件會記錄在可透過 CloudWatch 監控的 Slurm 日誌 (slurmctld 和 slurmd) 中。節點狀態中的原因欄位會顯示程序期間的重新啟動原因。

**如果節點在重新開機期間卡住該怎麼辦？**  
如果節點未在 ResumeTimeout 中完成重新啟動程序，則會將其標示為 DOWN。檢查 CloudWatch 日誌是否有錯誤、驗證網路連線，以及檢查 slurmd 日誌。如果問題持續發生，請聯絡 AWS Support。

**我可以一次重新啟動多個節點嗎？**  
是，您可以在重新啟動命令中指定多個節點：  

```
scontrol reboot ASAP node1,node2,node3
```

**如何重新啟動節點而不等待任務完成？**  
對於遇到影響多節點任務、顯著效能降低或 GPU 行為不穩定等問題時立即重新啟動節點，您有兩個選項：  
+ **取消和重新啟動** – 首先，使用 取消受影響的任務`scancel <job_id>`，然後使用 啟動立即重新啟動`scontrol reboot ASAP <nodename>`。執行中的任務將終止，且需要在節點復原後重新提交。
+ **耗盡和排入佇列 （影響較小）** – 首先啟動耗盡並使用 重新啟動`scontrol reboot ASAP <nodename>`，然後使用 重新排入受影響任務的佇列`scontrol requeue <job_id>`。這會讓任務回到待定狀態，而不是取消任務。

**如果我指定 nextstate=DOWN，會發生什麼情況？**  
如果您指定 `nextstate=DOWN`，節點會在重新啟動並觸發執行個體取代後標示為運作狀態不佳。若要避免執行個體替換，請勿指定 nextstate 或使用 `nextstate=RESUME`。

## 其他資源
<a name="slurm-reboot-faq-additional-resources"></a>
+ 如需基本重新啟動程序，請參閱 [在 AWS PCS 中使用 Slurm 重新啟動運算節點](slurm-reboot-procedure.md)。
+ 如需重新開機問題的疑難排解，請參閱 [針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷](slurm-reboot-troubleshooting.md)。
+ 如需 Slurm 重新啟動文件，請參閱 [Slurm scontrol 文件](https://slurm.schedmd.com/scontrol.html#OPT_reboot)。