View a markdown version of this page

針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷

當您遇到節點重新啟動問題時,請先使用 檢查節點狀態scontrol show node nodename。然後檢查 Slurm (slurmctld 和 slurmd) 和系統日誌的 CloudWatch 日誌,以識別潛在的錯誤。

如需基本故障診斷,請驗證網路連線、檢查安全群組設定,並確保所有必要的服務在重新開機後執行。如果問題在基本疑難排解步驟後仍存在,請聯絡 AWS Support。聯絡 支援時,請提供相關的日誌摘錄、節點狀態資訊,以及重新啟動嘗試的時間表,以協助加速解決程序。

其他資源