Reinicie un nodo de cómputo mediante Slurm en PCS AWS

Utilice el comando reboot nativo de Slurm para resolver problemas de rendimiento, solucionar problemas de recursos o recuperarse de estados degradados sin perder la capacidad de la instancia EC2.

Requisitos previos

Privilegios de administrador de Slurm (acceso de usuario root)
Acceso a un nodo de inicio de sesión en el clúster de AWS PCS

Procedimiento

Conéctese a un nodo de inicio de sesión a través de la consola EC2.
1. En la consola de EC2, elija Instances (Instancias).
2. Seleccione su instancia de nodo de inicio de sesión.
3. Elija Conectar.
Identifique el nombre del nodo informático de destino mediante sinfo oscontrol show node.
```
sinfo
# or
scontrol show node
```
Ejecute el comando reboot mediante una de estas opciones:

aviso
No lo utilices nextstate=DOWN con el scontrol reboot comando. Este parámetro marca el nodo como en mal estado y activa el reemplazo de la instancia.
- Reinicio básico (espera a que el nodo quede inactivo):
```
scontrol reboot nodename
```
- Reinicio inmediato (drena el nodo y se reinicia cuando se completan los trabajos):
```
scontrol reboot ASAP nodename
```
- Reinicie con el motivo:
```
scontrol reboot ASAP reason="troubleshooting" nodename
```
- Reinicie con el estado de reanudación:
```
scontrol reboot ASAP nextstate=RESUME nodename
```
Supervise el progreso del reinicio mediantescontrol show node.
```
scontrol show node nodename
```
Compruebe que el nodo vuelva a funcionar una vez finalizado el reinicio.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Reiniciar Slurm

Cancelar el reinicio

Reinicie un nodo de cómputo mediante Slurm en PCS AWS

Requisitos previos

Procedimiento

aviso