本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中的 Slurm 重新啟動常見問答集
尋找有關在 AWS PCS 中使用 Slurm 重新啟動的常見問題解答。
- 什麼是 Slurm 重新啟動支援?
-
支援原生 Slurm
scontrol reboot命令。使用此命令無需自動替換執行個體即可重新啟動運算節點,以保留 EC2 執行個體容量並降低營運成本。 - 誰可以使用 Slurm 重新啟動命令?
-
只有 Slurm Admin 使用者 (根使用者) 可以執行重新啟動命令。嘗試使用 的一般使用者
scontrol reboot會收到來自 Slurm 的拒絕許可錯誤,而不會影響節點。 - 在重新開機期間執行任務會發生什麼情況?
-
根據預設,任務會在重新啟動之前正常完成。使用 ASAP 選項時,節點會耗盡以防止新任務,並在目前任務完成後重新啟動。任務可以取消或重新排入佇列,以便立即重新啟動。
- 這與 EC2 主控台重新啟動有何不同?
-
Slurm 重新啟動會保留 EC2 執行個體並避免取代,而 EC2 主控台重新啟動會觸發 PCS 因為重新啟動程序期間運作狀態檢查失敗而取代執行個體。
- 我可以設定自訂重新開機指令碼嗎?
-
否,初始版本不支援 RebootProgram 組態。此功能使用標準 Slurm 重新啟動行為,無需自訂指令碼支援。
- Slurm 重新啟動需要多長時間?
-
重新啟動時間會根據執行個體類型、客戶開機程序、AMI 組態,以及任務是否需要先完成而有所不同。此程序包括等待任務完成、實體重新開機、運作狀態檢查和 slurmd 協助程式註冊。
- 我可以看到重新啟動的歷史記錄嗎?
-
重新啟動事件會記錄在可透過 CloudWatch 監控的 Slurm 日誌 (slurmctld 和 slurmd) 中。節點狀態中的原因欄位會顯示程序期間的重新啟動原因。
- 如果節點在重新開機期間卡住該怎麼辦?
-
如果節點未在 ResumeTimeout 中完成重新啟動程序,則會將其標示為 DOWN。檢查 CloudWatch 日誌是否有錯誤、驗證網路連線,以及檢查 slurmd 日誌。如果問題持續發生,請聯絡 AWS Support。
- 我可以一次重新啟動多個節點嗎?
-
是,您可以在重新啟動命令中指定多個節點:
scontrol reboot ASAP node1,node2,node3 - 如何重新啟動節點而不等待任務完成?
-
對於遇到影響多節點任務、顯著效能降低或 GPU 行為不穩定等問題時立即重新啟動節點,您有兩個選項:
-
取消和重新啟動 – 首先,使用 取消受影響的任務
scancel <job_id>,然後使用 啟動立即重新啟動scontrol reboot ASAP <nodename>。執行中的任務將終止,且需要在節點復原後重新提交。 -
耗盡和排入佇列 (影響較小) – 首先啟動耗盡並使用 重新啟動
scontrol reboot ASAP <nodename>,然後使用 重新排入受影響任務的佇列scontrol requeue <job_id>。這會讓任務回到待定狀態,而不是取消任務。
-
- 如果我指定 nextstate=DOWN,會發生什麼情況?
-
如果您指定
nextstate=DOWN,節點會在重新啟動並觸發執行個體取代後標示為運作狀態不佳。若要避免執行個體替換,請勿指定 nextstate 或使用nextstate=RESUME。
其他資源
-
如需基本重新啟動程序,請參閱 在 AWS PCS 中使用 Slurm 重新啟動運算節點。
-
如需重新開機問題的疑難排解,請參閱 針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷。
-
如需 Slurm 重新啟動文件,請參閱 Slurm scontrol 文件
。