

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 針對 AWS PCS 中的 Slurm 重新啟動問題進行故障診斷
<a name="slurm-reboot-troubleshooting"></a>

當您遇到節點重新啟動問題時，請先使用 檢查節點狀態`scontrol show node {{nodename}}`。然後檢查 Slurm (slurmctld 和 slurmd) 和系統日誌的 CloudWatch 日誌，以識別潛在的錯誤。

如需基本故障診斷，請驗證網路連線、檢查安全群組設定，並確保所有必要的服務在重新開機後執行。如果問題在基本疑難排解步驟後仍存在，請聯絡 AWS Support。聯絡 支援時，請提供相關的日誌摘錄、節點狀態資訊，以及重新啟動嘗試的時間表，以協助加速解決程序。

## 其他資源
<a name="slurm-reboot-troubleshooting-additional-resources"></a>
+ 如需使用 CloudWatch 監控 AWS PCS 執行個體，請參閱[使用 Amazon CloudWatch 監控 AWS PCS 執行個體](https://docs.aws.amazon.com/pcs/latest/userguide/monitoring-cloudwatch_instances.html)。
+ 如需一般故障診斷，請參閱 [對 AWS 平行運算服務中的問題進行故障診斷](troubleshooting.md)。
+ 如需 Slurm 文件，請參閱 [Slurm 故障診斷指南](https://slurm.schedmd.com/troubleshoot.html)。