View a markdown version of this page

在 PCS 中使用 Slurm 重启计算节点 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 PCS 中使用 Slurm 重启计算节点 AWS

使用 Slurm 的本机重启命令来解决性能问题、清除资源问题或从降级状态中恢复,而不会损失 EC2 实例容量。

先决条件

  • Slurm 管理员权限(根用户访问权限)

  • 访问 AWS PCS 集群中的登录节点

过程

  1. 通过 EC2 控制台连接到登录节点。

    1. 在 EC2 控制台中,选择 Instances (实例)

    2. 选择您的登录节点实例。

    3. 选择连接

  2. 使用sinfo或标识目标计算节点的名称scontrol show node

    sinfo # or scontrol show node
  3. 使用以下选项之一执行重启命令:

    警告

    不要与scontrol reboot命令nextstate=DOWN一起使用。此参数将节点标记为运行状况不佳并触发实例替换。

    • 基本重启(等待节点空闲):

      scontrol reboot nodename
    • 立即重启(耗尽节点并在任务完成后重新启动):

      scontrol reboot ASAP nodename
    • 重启的原因是:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • 在恢复状态下重新启动:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. 使用监控重启进度scontrol show node

    scontrol show node nodename
  5. 验证节点在重启完成后是否恢复服务。