本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
对 PCS 中的 Slurm 重启问题进行故障排除 AWS
遇到节点重启问题时,请先使用检查节点状态scontrol
show node 。然后检查 Slurm(slurmctld 和 slurmd)和 CloudWatch 系统日志的日志,以确定潜在的错误。nodename
要进行基本的故障排除,请验证网络连接,检查安全组设置,并确保重启后所有必需的服务都在运行。如果完成基本故障排除步骤后问题仍然存在,请联系 Supp AWS ort。联系支持人员时,请提供相关的日志摘录、节点状态信息和重启尝试的时间表,以帮助加快解决过程。
其他资源
-
有关使用监控 AWS PCS 实例的信息 CloudWatch,请参阅使用 Amazon 监控 AWS PCS 实例 CloudWatch。
-
有关一般故障排除,请参阅对 AWS 并行计算服务中的问题进行故障排除。
-
有关 Slurm 文档,请参阅 Slur
m 故障排除指南。