View a markdown version of this page

对 PCS 中的 Slurm 重启问题进行故障排除 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 PCS 中的 Slurm 重启问题进行故障排除 AWS

遇到节点重启问题时,请先使用检查节点状态scontrol show node nodename。然后检查 Slurm(slurmctld 和 slurmd)和 CloudWatch 系统日志的日志,以确定潜在的错误。

要进行基本的故障排除,请验证网络连接,检查安全组设置,并确保重启后所有必需的服务都在运行。如果完成基本故障排除步骤后问题仍然存在,请联系 Supp AWS ort。联系支持人员时,请提供相关的日志摘录、节点状态信息和重启尝试的时间表,以帮助加快解决过程。

其他资源