View a markdown version of this page

AWS PCS 中的 Slurm 重新啟動常見問答集 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS PCS 中的 Slurm 重新啟動常見問答集

尋找有關在 AWS PCS 中使用 Slurm 重新啟動的常見問題解答。

什麼是 Slurm 重新啟動支援?

支援原生 Slurm scontrol reboot命令。使用此命令無需自動替換執行個體即可重新啟動運算節點,以保留 EC2 執行個體容量並降低營運成本。

誰可以使用 Slurm 重新啟動命令?

只有 Slurm Admin 使用者 (根使用者) 可以執行重新啟動命令。嘗試使用 的一般使用者scontrol reboot會收到來自 Slurm 的拒絕許可錯誤,而不會影響節點。

在重新開機期間執行任務會發生什麼情況?

根據預設,任務會在重新啟動之前正常完成。使用 ASAP 選項時,節點會耗盡以防止新任務,並在目前任務完成後重新啟動。任務可以取消或重新排入佇列,以便立即重新啟動。

這與 EC2 主控台重新啟動有何不同?

Slurm 重新啟動會保留 EC2 執行個體並避免取代,而 EC2 主控台重新啟動會觸發 PCS 因為重新啟動程序期間運作狀態檢查失敗而取代執行個體。

我可以設定自訂重新開機指令碼嗎?

否,初始版本不支援 RebootProgram 組態。此功能使用標準 Slurm 重新啟動行為,無需自訂指令碼支援。

Slurm 重新啟動需要多長時間?

重新啟動時間會根據執行個體類型、客戶開機程序、AMI 組態,以及任務是否需要先完成而有所不同。此程序包括等待任務完成、實體重新開機、運作狀態檢查和 slurmd 協助程式註冊。

我可以看到重新啟動的歷史記錄嗎?

重新啟動事件會記錄在可透過 CloudWatch 監控的 Slurm 日誌 (slurmctld 和 slurmd) 中。節點狀態中的原因欄位會顯示程序期間的重新啟動原因。

如果節點在重新開機期間卡住該怎麼辦?

如果節點未在 ResumeTimeout 中完成重新啟動程序,則會將其標示為 DOWN。檢查 CloudWatch 日誌是否有錯誤、驗證網路連線,以及檢查 slurmd 日誌。如果問題持續發生,請聯絡 AWS Support。

我可以一次重新啟動多個節點嗎?

是,您可以在重新啟動命令中指定多個節點:

scontrol reboot ASAP node1,node2,node3
如何重新啟動節點而不等待任務完成?

對於遇到影響多節點任務、顯著效能降低或 GPU 行為不穩定等問題時立即重新啟動節點,您有兩個選項:

  • 取消和重新啟動 – 首先,使用 取消受影響的任務scancel <job_id>,然後使用 啟動立即重新啟動scontrol reboot ASAP <nodename>。執行中的任務將終止,且需要在節點復原後重新提交。

  • 耗盡和排入佇列 (影響較小) – 首先啟動耗盡並使用 重新啟動scontrol reboot ASAP <nodename>,然後使用 重新排入受影響任務的佇列scontrol requeue <job_id>。這會讓任務回到待定狀態,而不是取消任務。

如果我指定 nextstate=DOWN,會發生什麼情況?

如果您指定 nextstate=DOWN,節點會在重新啟動並觸發執行個體取代後標示為運作狀態不佳。若要避免執行個體替換,請勿指定 nextstate 或使用 nextstate=RESUME

其他資源