As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Reinicialize um nó de computação usando o Slurm no PCS AWS
Use o comando de reinicialização nativo do Slurm para resolver problemas de desempenho, eliminar problemas de recursos ou se recuperar de estados degradados sem perda da capacidade da instância EC2.
Pré-requisitos
-
Privilégios de administrador do Slurm (acesso do usuário root)
-
Acesso a um nó de login no cluster AWS PCS
Procedimento
-
Conecte-se a um nó de login por meio do console do EC2.
-
No console do EC2, selecione Instances (Instâncias).
-
Selecione sua instância do nó de login.
-
Selecione Conectar.
-
-
Identifique o nome do nó de computação de destino usando
sinfoouscontrol show node.sinfo # or scontrol show node -
Execute o comando de reinicialização usando uma das seguintes opções:
Atenção
Não use
nextstate=DOWNcom oscontrol rebootcomando. Esse parâmetro marca o nó como não íntegro e aciona a substituição da instância.-
Reinicialização básica (espera que o nó fique ocioso):
scontrol rebootnodename -
Reinicialização imediata (drena o nó e reinicia quando os trabalhos são concluídos):
scontrol reboot ASAPnodename -
Reinicie com o motivo:
scontrol reboot ASAP reason="troubleshooting"nodename -
Reinicialize com o estado de retomada:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Monitore o progresso da reinicialização usando o.
scontrol show nodescontrol show nodenodename -
Verifique se o nó volta ao serviço após a conclusão da reinicialização.