本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 PCS 中使用 Slurm 重启计算节点 AWS
使用 Slurm 的本机重启命令来解决性能问题、清除资源问题或从降级状态中恢复,而不会损失 EC2 实例容量。
先决条件
-
Slurm 管理员权限(根用户访问权限)
-
访问 AWS PCS 集群中的登录节点
过程
-
通过 EC2 控制台连接到登录节点。
-
在 EC2 控制台中,选择 Instances (实例)。
-
选择您的登录节点实例。
-
选择连接。
-
-
使用
sinfo或标识目标计算节点的名称scontrol show node。sinfo # or scontrol show node -
使用以下选项之一执行重启命令:
警告
不要与
scontrol reboot命令nextstate=DOWN一起使用。此参数将节点标记为运行状况不佳并触发实例替换。-
基本重启(等待节点空闲):
scontrol rebootnodename -
立即重启(耗尽节点并在任务完成后重新启动):
scontrol reboot ASAPnodename -
重启的原因是:
scontrol reboot ASAP reason="troubleshooting"nodename -
在恢复状态下重新启动:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
使用监控重启进度
scontrol show node。scontrol show nodenodename -
验证节点在重启完成后是否恢复服务。