Reinicializando nós de computação com o Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Reinicializando nós de computação com o Slurm no PCS AWS

AWS O PCS suporta o comando nativo scontrol reboot do Slurm. Use esse comando para reinicializar os nós de computação sem a substituição da instância do EC2. Outros métodos de reinicialização (console do Amazon EC2 AWS CLI, patches automatizados ou manutenção do sistema) AWS fazem com que o PCS considere a instância do EC2 não íntegra e a substitua.

Benefícios da reinicialização do Slurm

A reinicialização do Slurm oferece várias vantagens para a manutenção do cluster:

  • Preserve a capacidade — evite perder instâncias do EC2 com restrição de capacidade para outros clientes.

  • Reduza os custos — elimine os ciclos desnecessários de substituição de instâncias e a cobrança contínua por nós ociosos.

  • Recuperação mais rápida — sem atrasos no provisionamento em comparação com a substituição da instância.

  • Flexibilidade operacional — elimine vazamentos de memória, remova arquivos temporários e recupere nós de estados degradados.

Quando usar a reinicialização do Slurm

Use a reinicialização do Slurm para cenários comuns de manutenção operacional:

  • Solução de problemas — Resolva problemas de desempenho ou processos que não respondem, especialmente para nós de GPU.

  • Limpeza de recursos — Limpe vazamentos de memória, arquivos temporários ou processos bloqueados que afetam o desempenho do trabalho. /tmp

  • Recuperação — recupere nós de estados paralisados ou degradados antes de exigir a substituição completa do nó.

Limitações

  • Somente usuários do Slurm Admin (usuários root) podem executar comandos de reinicialização.

  • O suporte de reinicialização é limitado a scontrol reboot apenas.

  • RebootProgram a configuração não é suportada.

  • Sem interface de console — somente linha de comando.