

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 PCS 中使用 Slurm 重启计算节点 AWS
<a name="slurm-reboot-procedure"></a>

使用 Slurm 的本机重启命令来解决性能问题、清除资源问题或从降级状态中恢复，而不会损失 EC2 实例容量。

## 先决条件
<a name="slurm-reboot-procedure-prerequisites"></a>
+ Slurm 管理员权限（根用户访问权限）
+ 访问 AWS PCS 集群中的登录节点

## 过程
<a name="slurm-reboot-procedure-steps"></a>

1. 通过 EC2 控制台连接到登录节点。

   1. 在 EC2 控制台中，选择 **Instances (实例)**。

   1. 选择您的登录节点实例。

   1. 选择**连接**。

1. 使用`sinfo`或标识目标计算节点的名称`scontrol show node`。

   ```
   sinfo
   # or
   scontrol show node
   ```

1. 使用以下选项之一执行重启命令：
**警告**  
不要与`scontrol reboot`命令`nextstate=DOWN`一起使用。此参数将节点标记为运行状况不佳并触发实例替换。
   + 基本重启（等待节点空闲）：

     ```
     scontrol reboot nodename
     ```
   + 立即重启（耗尽节点并在任务完成后重新启动）：

     ```
     scontrol reboot ASAP nodename
     ```
   + 重启的原因是：

     ```
     scontrol reboot ASAP reason="troubleshooting" nodename
     ```
   + 在恢复状态下重新启动：

     ```
     scontrol reboot ASAP nextstate=RESUME nodename
     ```

1. 使用监控重启进度`scontrol show node`。

   ```
   scontrol show node nodename
   ```

1. 验证节点在重启完成后是否恢复服务。