本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 PCS 中使用 Slurm 重启计算节点 AWS
AWS PCS 支持 Slurm 的原scontrol reboot生命令。使用此命令可在不更换 EC2 实例的情况下重启计算节点。其他重启方法(Amazon EC2 控制台 AWS CLI、自动补丁或系统维护)会导致 AWS PCS 认为 EC2 实例运行状况不佳并替换它。
重启 Slurm 的好处
Slurm 重启为集群维护提供了几个优点:
-
保留容量-避免将容量受限的 EC2 实例丢给其他客户。
-
降低成本 — 消除不必要的实例更换周期和对闲置节点的持续计费。
-
更快的恢复 — 与更换实例相比,没有配置延迟。
-
操作灵活性 — 清除内存泄漏、删除临时文件以及将节点从降级状态中恢复。
何时使用 Slurm 重启
在常见的操作维护场景中使用 Slurm 重启:
-
故障排除-解决性能问题或进程无响应,尤其是 GPU 节点。
-
资源清理-清除影响作业性能的内存泄漏
/tmp、临时文件或卡住的进程。 -
恢复-在要求更换完整节点之前,将节点从挂起或降级状态中恢复。
限制
-
只有 Slurm 管理员用户(root 用户)可以执行重启命令。
-
重启支持
scontrol reboot仅限于。 -
RebootProgram 不支持配置。
-
没有控制台界面 — 仅限命令行。