本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
PCS 中的 Slurm 重启常见问题解答 AWS
查找有关在 PCS 中 AWS 使用 Slurm 重启的常见问题的答案。
- 什么是 Slurm 重启支持?
-
支持原生 Slurm 命令
scontrol reboot。使用此命令无需自动更换实例即可重启计算节点,这样可以保留 EC2 实例容量并降低运营成本。 - 谁可以使用 Slurm 重启命令?
-
只有 Slurm 管理员用户(root 用户)可以执行重启命令。尝试使用的普通用户
scontrol reboot将收到来自 Slurm 的权限被拒绝的错误,而不会影响节点。 - 在重启期间运行作业会怎样?
-
默认情况下,任务会在重新启动之前正常完成。使用 ASAP 选项,节点会被耗尽以防止新作业,并且在当前任务完成后重新启动。可以取消任务或重新排队以便立即重启。
- 这与 EC2 控制台重启有何不同?
-
Slurm 重启可保留 EC2 实例并避免替换,而 EC2 控制台重启会触发 PCS 更换实例,因为在重启过程中运行状况检查失败。
- 我可以配置自定义重启脚本吗?
-
不是,初始版本不支持 RebootProgram 配置。该功能使用标准的 Slurm 重启行为,不支持自定义脚本。
- Slurm 重启需要多长时间?
-
重启时间因实例类型、客户启动流程、AMI 配置以及是否需要先完成任务而异。该过程包括等待任务完成、物理重启、运行状况检查和 slurmd 守护程序注册。
- 我能看到重启的历史吗?
-
重启事件记录在 Slurm 日志(slurmctld 和 slurmd)中,可以通过这些日志进行监控。 CloudWatch节点状态中的原因字段显示了该过程中的重启原因。
- 如果节点在重启期间卡住了怎么办?
-
如果某个节点未完成其中的重启过程 ResumeTimeout,则该节点将被标记为 DOWN。检查 CloudWatch 日志中是否存在错误,验证网络连接,并检查 slurmd 日志。如果问题仍然存在,请联系 AWS Support。
- 我能否同时重启多个节点?
-
是的,你可以在 reboot 命令中指定多个节点:
scontrol reboot ASAP node1,node2,node3 - 如何在不等待任务完成的情况下重启节点?
-
要在遇到问题节点影响多节点作业、性能严重下降或 GPU 行为不稳定等问题时立即重启节点,您有两种选择:
-
取消并重新启动-首先,使用取消受影响的作业
scancel <job_id>,然后使用启动立即重启scontrol reboot ASAP <nodename>。正在运行的作业将被终止,需要在节点恢复后重新提交。 -
D@@ rain and Requeue(影响较小)— 首先使用启动引流并重启
scontrol reboot ASAP <nodename>,然后使用重新排队受影响的作业。scontrol requeue <job_id>这会使任务恢复到待处理状态,而不是取消它们。
-
- 如果我指定 nextState=down 会发生什么?
-
如果您指定
nextstate=DOWN,则在重启并触发实例替换后,该节点将被标记为运行状况不佳。为避免替换实例,请不要指定 nextstate 或使用nextstate=RESUME。
其他资源
-
有关基本的重新启动过程,请参见在 PCS 中使用 Slurm 重启计算节点 AWS。
-
有关重新启动问题的疑难解答,请参阅对 PCS 中的 Slurm 重启问题进行故障排除 AWS。
-
有关 Slurm 重启文档,请参阅 S lur
m scontrol 文档。