在 PCS 中使用 Slurm 重启计算节点 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 PCS 中使用 Slurm 重启计算节点 AWS

AWS PCS 支持 Slurm 的原scontrol reboot生命令。使用此命令可在不更换 EC2 实例的情况下重启计算节点。其他重启方法(Amazon EC2 控制台 AWS CLI、自动补丁或系统维护)会导致 AWS PCS 认为 EC2 实例运行状况不佳并替换它。

重启 Slurm 的好处

Slurm 重启为集群维护提供了几个优点:

  • 保留容量-避免将容量受限的 EC2 实例丢给其他客户。

  • 降低成本 — 消除不必要的实例更换周期和对闲置节点的持续计费。

  • 更快的恢复 — 与更换实例相比,没有配置延迟。

  • 操作灵活性 — 清除内存泄漏、删除临时文件以及将节点从降级状态中恢复。

何时使用 Slurm 重启

在常见的操作维护场景中使用 Slurm 重启:

  • 故障排除-解决性能问题或进程无响应,尤其是 GPU 节点。

  • 资源清理-清除影响作业性能的内存泄漏/tmp、临时文件或卡住的进程。

  • 恢复-在要求更换完整节点之前,将节点从挂起或降级状态中恢复。

限制

  • 只有 Slurm 管理员用户(root 用户)可以执行重启命令。

  • 重启支持scontrol reboot仅限于。

  • RebootProgram 不支持配置。

  • 没有控制台界面 — 仅限命令行。