View a markdown version of this page

PCS 中的 Slurm 重启常见问题解答 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PCS 中的 Slurm 重启常见问题解答 AWS

查找有关在 PCS 中 AWS 使用 Slurm 重启的常见问题的答案。

什么是 Slurm 重启支持?

支持原生 Slurm 命令scontrol reboot。使用此命令无需自动更换实例即可重启计算节点,这样可以保留 EC2 实例容量并降低运营成本。

谁可以使用 Slurm 重启命令?

只有 Slurm 管理员用户(root 用户)可以执行重启命令。尝试使用的普通用户scontrol reboot将收到来自 Slurm 的权限被拒绝的错误,而不会影响节点。

在重启期间运行作业会怎样?

默认情况下,任务会在重新启动之前正常完成。使用 ASAP 选项,节点会被耗尽以防止新作业,并且在当前任务完成后重新启动。可以取消任务或重新排队以便立即重启。

这与 EC2 控制台重启有何不同?

Slurm 重启可保留 EC2 实例并避免替换,而 EC2 控制台重启会触发 PCS 更换实例,因为在重启过程中运行状况检查失败。

我可以配置自定义重启脚本吗?

不是,初始版本不支持 RebootProgram 配置。该功能使用标准的 Slurm 重启行为,不支持自定义脚本。

Slurm 重启需要多长时间?

重启时间因实例类型、客户启动流程、AMI 配置以及是否需要先完成任务而异。该过程包括等待任务完成、物理重启、运行状况检查和 slurmd 守护程序注册。

我能看到重启的历史吗?

重启事件记录在 Slurm 日志(slurmctld 和 slurmd)中,可以通过这些日志进行监控。 CloudWatch节点状态中的原因字段显示了该过程中的重启原因。

如果节点在重启期间卡住了怎么办?

如果某个节点未完成其中的重启过程 ResumeTimeout,则该节点将被标记为 DOWN。检查 CloudWatch 日志中是否存在错误,验证网络连接,并检查 slurmd 日志。如果问题仍然存在,请联系 AWS Support。

我能否同时重启多个节点?

是的,你可以在 reboot 命令中指定多个节点:

scontrol reboot ASAP node1,node2,node3
如何在不等待任务完成的情况下重启节点?

要在遇到问题节点影响多节点作业、性能严重下降或 GPU 行为不稳定等问题时立即重启节点,您有两种选择:

  • 取消并重新启动-首先,使用取消受影响的作业scancel <job_id>,然后使用启动立即重启scontrol reboot ASAP <nodename>。正在运行的作业将被终止,需要在节点恢复后重新提交。

  • D@@ rain and Requeue(影响较小)— 首先使用启动引流并重启scontrol reboot ASAP <nodename>,然后使用重新排队受影响的作业。scontrol requeue <job_id>这会使任务恢复到待处理状态,而不是取消它们。

如果我指定 nextState=down 会发生什么?

如果您指定nextstate=DOWN,则在重启并触发实例替换后,该节点将被标记为运行状况不佳。为避免替换实例,请不要指定 nextstate 或使用nextstate=RESUME

其他资源