Reinicialize um nó de computação usando o Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Reinicialize um nó de computação usando o Slurm no PCS AWS

Use o comando de reinicialização nativo do Slurm para resolver problemas de desempenho, eliminar problemas de recursos ou se recuperar de estados degradados sem perda da capacidade da instância EC2.

Pré-requisitos

  • Privilégios de administrador do Slurm (acesso do usuário root)

  • Acesso a um nó de login no cluster AWS PCS

Procedimento

  1. Conecte-se a um nó de login por meio do console do EC2.

    1. No console do EC2, selecione Instances (Instâncias).

    2. Selecione sua instância do nó de login.

    3. Selecione Conectar.

  2. Identifique o nome do nó de computação de destino usando sinfo ouscontrol show node.

    sinfo # or scontrol show node
  3. Execute o comando de reinicialização usando uma das seguintes opções:

    Atenção

    Não use nextstate=DOWN com o scontrol reboot comando. Esse parâmetro marca o nó como não íntegro e aciona a substituição da instância.

    • Reinicialização básica (espera que o nó fique ocioso):

      scontrol reboot nodename
    • Reinicialização imediata (drena o nó e reinicia quando os trabalhos são concluídos):

      scontrol reboot ASAP nodename
    • Reinicie com o motivo:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Reinicialize com o estado de retomada:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Monitore o progresso da reinicialização usando o. scontrol show node

    scontrol show node nodename
  5. Verifique se o nó volta ao serviço após a conclusão da reinicialização.