本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷
當您遇到節點重新啟動問題時,請先使用 檢查節點狀態scontrol show node 。然後檢查 Slurm (slurmctld 和 slurmd) 和系統日誌的 CloudWatch 日誌,以識別潛在的錯誤。nodename
如需基本故障診斷,請驗證網路連線、檢查安全群組設定,並確保所有必要的服務在重新開機後執行。如果問題在基本疑難排解步驟後仍存在,請聯絡 AWS Support。聯絡 支援時,請提供相關的日誌摘錄、節點狀態資訊,以及重新啟動嘗試的時間表,以協助加速解決程序。
其他資源
-
如需使用 CloudWatch 監控 AWS PCS 執行個體,請參閱使用 Amazon CloudWatch 監控 AWS PCS 執行個體。
-
如需一般故障診斷,請參閱 平行 AWS 運算服務中的問題故障診斷。
-
如需 Slurm 文件,請參閱 Slurm 故障診斷指南
。