Reinicie un nodo de cómputo mediante Slurm en PCS AWS - AWS PCS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Reinicie un nodo de cómputo mediante Slurm en PCS AWS

Utilice el comando reboot nativo de Slurm para resolver problemas de rendimiento, solucionar problemas de recursos o recuperarse de estados degradados sin perder la capacidad de la instancia EC2.

Requisitos previos

  • Privilegios de administrador de Slurm (acceso de usuario root)

  • Acceso a un nodo de inicio de sesión en el clúster de AWS PCS

Procedimiento

  1. Conéctese a un nodo de inicio de sesión a través de la consola EC2.

    1. En la consola de EC2, elija Instances (Instancias).

    2. Seleccione su instancia de nodo de inicio de sesión.

    3. Elija Conectar.

  2. Identifique el nombre del nodo de procesamiento de destino mediante sinfo oscontrol show node.

    sinfo # or scontrol show node
  3. Ejecute el comando reboot mediante una de estas opciones:

    aviso

    No lo utilices nextstate=DOWN con el scontrol reboot comando. Este parámetro marca el nodo como en mal estado y activa el reemplazo de la instancia.

    • Reinicio básico (espera a que el nodo quede inactivo):

      scontrol reboot nodename
    • Reinicio inmediato (drena el nodo y se reinicia cuando se completan los trabajos):

      scontrol reboot ASAP nodename
    • Reinicie con el motivo:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Reinicie con el estado de reanudación:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Supervise el progreso del reinicio mediantescontrol show node.

    scontrol show node nodename
  5. Compruebe que el nodo vuelva a funcionar una vez finalizado el reinicio.