Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Reinicie un nodo de cómputo mediante Slurm en PCS AWS
Utilice el comando reboot nativo de Slurm para resolver problemas de rendimiento, solucionar problemas de recursos o recuperarse de estados degradados sin perder la capacidad de la instancia EC2.
Requisitos previos
-
Privilegios de administrador de Slurm (acceso de usuario root)
-
Acceso a un nodo de inicio de sesión en el clúster de AWS PCS
Procedimiento
-
Conéctese a un nodo de inicio de sesión a través de la consola EC2.
-
En la consola de EC2, elija Instances (Instancias).
-
Seleccione su instancia de nodo de inicio de sesión.
-
Elija Conectar.
-
-
Identifique el nombre del nodo de procesamiento de destino mediante
sinfooscontrol show node.sinfo # or scontrol show node -
Ejecute el comando reboot mediante una de estas opciones:
aviso
No lo utilices
nextstate=DOWNcon elscontrol rebootcomando. Este parámetro marca el nodo como en mal estado y activa el reemplazo de la instancia.-
Reinicio básico (espera a que el nodo quede inactivo):
scontrol rebootnodename -
Reinicio inmediato (drena el nodo y se reinicia cuando se completan los trabajos):
scontrol reboot ASAPnodename -
Reinicie con el motivo:
scontrol reboot ASAP reason="troubleshooting"nodename -
Reinicie con el estado de reanudación:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Supervise el progreso del reinicio mediante
scontrol show node.scontrol show nodenodename -
Compruebe que el nodo vuelva a funcionar una vez finalizado el reinicio.