As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Reinicializando nós de computação com o Slurm no PCS AWS
AWS O PCS suporta o comando nativo scontrol reboot do Slurm. Use esse comando para reinicializar os nós de computação sem a substituição da instância do EC2. Outros métodos de reinicialização (console do Amazon EC2 AWS CLI, patches automatizados ou manutenção do sistema) AWS fazem com que o PCS considere a instância do EC2 não íntegra e a substitua.
Benefícios da reinicialização do Slurm
A reinicialização do Slurm oferece várias vantagens para a manutenção do cluster:
-
Preserve a capacidade — evite perder instâncias do EC2 com restrição de capacidade para outros clientes.
-
Reduza os custos — elimine os ciclos desnecessários de substituição de instâncias e a cobrança contínua por nós ociosos.
-
Recuperação mais rápida — sem atrasos no provisionamento em comparação com a substituição da instância.
-
Flexibilidade operacional — elimine vazamentos de memória, remova arquivos temporários e recupere nós de estados degradados.
Quando usar a reinicialização do Slurm
Use a reinicialização do Slurm para cenários comuns de manutenção operacional:
-
Solução de problemas — Resolva problemas de desempenho ou processos que não respondem, especialmente para nós de GPU.
-
Limpeza de recursos — Limpe vazamentos de memória, arquivos temporários ou processos bloqueados que afetam o desempenho do trabalho.
/tmp -
Recuperação — recupere nós de estados paralisados ou degradados antes de exigir a substituição completa do nó.
Limitações
-
Somente usuários do Slurm Admin (usuários root) podem executar comandos de reinicialização.
-
O suporte de reinicialização é limitado a
scontrol rebootapenas. -
RebootProgram a configuração não é suportada.
-
Sem interface de console — somente linha de comando.