

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# PCS 中的 Slurm 重启常见问题解答 AWS
<a name="slurm-reboot-faq"></a>

查找有关在 PCS 中 AWS 使用 Slurm 重启的常见问题的答案。

**什么是 Slurm 重启支持？**  
支持原生 Slurm 命令`scontrol reboot`。使用此命令无需自动更换实例即可重启计算节点，这样可以保留 EC2 实例容量并降低运营成本。

**谁可以使用 Slurm 重启命令？**  
只有 Slurm 管理员用户（root 用户）可以执行重启命令。尝试使用的普通用户`scontrol reboot`将收到来自 Slurm 的权限被拒绝的错误，而不会影响节点。

**在重启期间运行作业会怎样？**  
默认情况下，任务会在重新启动之前正常完成。使用 ASAP 选项，节点会被耗尽以防止新作业，并且在当前任务完成后重新启动。可以取消任务或重新排队以便立即重启。

**这与 EC2 控制台重启有何不同？**  
Slurm 重启可保留 EC2 实例并避免替换，而 EC2 控制台重启会触发 PCS 更换实例，因为在重启过程中运行状况检查失败。

**我可以配置自定义重启脚本吗？**  
不是，初始版本不支持 RebootProgram 配置。该功能使用标准的 Slurm 重启行为，不支持自定义脚本。

**Slurm 重启需要多长时间？**  
重启时间因实例类型、客户启动流程、AMI 配置以及是否需要先完成任务而异。该过程包括等待任务完成、物理重启、运行状况检查和 slurmd 守护程序注册。

**我能看到重启的历史吗？**  
重启事件记录在 Slurm 日志（slurmctld 和 slurmd）中，可以通过这些日志进行监控。 CloudWatch节点状态中的原因字段显示了该过程中的重启原因。

**如果节点在重启期间卡住了怎么办？**  
如果某个节点未完成其中的重启过程 ResumeTimeout，则该节点将被标记为 DOWN。检查 CloudWatch 日志中是否存在错误，验证网络连接，并检查 slurmd 日志。如果问题仍然存在，请联系 AWS Support。

**我能否同时重启多个节点？**  
是的，你可以在 reboot 命令中指定多个节点：  

```
scontrol reboot ASAP node1,node2,node3
```

**如何在不等待任务完成的情况下重启节点？**  
要在遇到问题节点影响多节点作业、性能严重下降或 GPU 行为不稳定等问题时立即重启节点，您有两种选择：  
+ **取消并重新启动**-首先，使用取消受影响的作业`scancel <job_id>`，然后使用启动立即重启`scontrol reboot ASAP <nodename>`。正在运行的作业将被终止，需要在节点恢复后重新提交。
+ D@@ **rain and Requeue（影响较小）**— 首先使用启动引流并重启`scontrol reboot ASAP <nodename>`，然后使用重新排队受影响的作业。`scontrol requeue <job_id>`这会使任务恢复到待处理状态，而不是取消它们。

**如果我指定 nextState=down 会发生什么？**  
如果您指定`nextstate=DOWN`，则在重启并触发实例替换后，该节点将被标记为运行状况不佳。为避免替换实例，请不要指定 nextstate 或使用`nextstate=RESUME`。

## 其他资源
<a name="slurm-reboot-faq-additional-resources"></a>
+ 有关基本的重新启动过程，请参见[在 PCS 中使用 Slurm 重启计算节点 AWS](slurm-reboot-procedure.md)。
+ 有关重新启动问题的疑难解答，请参阅[对 PCS 中的 Slurm 重启问题进行故障排除 AWS](slurm-reboot-troubleshooting.md)。
+ 有关 Slurm 重启文档，请参阅 S [lur](https://slurm.schedmd.com/scontrol.html#OPT_reboot) m scontrol 文档。