Perguntas frequentes sobre a reinicialização do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Perguntas frequentes sobre a reinicialização do Slurm no PCS AWS

Encontre respostas para perguntas comuns sobre como usar a reinicialização do Slurm no PCS. AWS

O que é o suporte à reinicialização do Slurm?

Support para o comando nativo do Slurm. scontrol reboot Use esse comando para reinicializar os nós de computação sem a substituição automática da instância, o que preserva a capacidade da instância EC2 e reduz os custos operacionais.

Quem pode usar os comandos de reinicialização do Slurm?

Somente usuários do Slurm Admin (usuários root) podem executar comandos de reinicialização. Usuários comuns que tentarem usar scontrol reboot receberão um erro de permissão negada do Slurm sem afetar o nó.

O que acontece com os trabalhos em execução durante uma reinicialização?

Por padrão, os trabalhos são concluídos normalmente antes da reinicialização. Com a opção ASAP, o nó é drenado para evitar novos trabalhos, e a reinicialização ocorre após a conclusão dos trabalhos atuais. Os trabalhos podem ser cancelados ou colocados novamente na fila para reinicializações imediatas.

Como isso é diferente da reinicialização do console EC2?

A reinicialização do Slurm preserva a instância do EC2 e evita a substituição, enquanto as reinicializações do console do EC2 acionam o PCS para substituir a instância devido a falhas nas verificações de integridade durante o processo de reinicialização.

Posso configurar scripts de reinicialização personalizados?

Não, a RebootProgram configuração não é suportada na versão inicial. O recurso usa o comportamento padrão de reinicialização do Slurm sem suporte a scripts personalizados.

Quanto tempo demora a reinicialização do Slurm?

O tempo de reinicialização varia de acordo com o tipo de instância, os processos de inicialização do cliente, a configuração da AMI e se os trabalhos precisam ser concluídos primeiro. O processo inclui aguardar a conclusão dos trabalhos, reinicialização física, verificações de integridade e registro do daemon slurmd.

Posso ver um histórico de reinicializações?

Os eventos de reinicialização são registrados nos registros do Slurm (slurmctld e slurmd), que podem ser monitorados. CloudWatch O campo do motivo no status do nó mostra o motivo da reinicialização durante o processo.

E se um nó ficar preso durante a reinicialização?

Se um nó não concluir o processo de reinicialização interno ResumeTimeout, ele será marcado como INATIVO. Verifique se há erros CloudWatch nos registros, verifique a conectividade de rede e examine os registros do slurmd. Entre em contato com AWS o Support se os problemas persistirem.

Posso reinicializar vários nós ao mesmo tempo?

Sim, você pode especificar vários nós no comando de reinicialização:

scontrol reboot ASAP node1,node2,node3
Como posso reinicializar um nó sem esperar que os trabalhos sejam concluídos?

Para reinicializações imediatas dos nós ao enfrentar problemas como nós problemáticos que afetam tarefas de vários nós, degradação significativa do desempenho ou comportamento instável da GPU, você tem duas opções:

  • Cancelar e reinicializar — Primeiro, cancele os trabalhos afetados usando e, em seguidascancel <job_id>, inicie uma reinicialização imediata usando. scontrol reboot ASAP <nodename> Os trabalhos em execução serão encerrados e precisarão ser reenviados após a recuperação do nó.

  • Drenagem e reenfileiramento (menos impactante) — Comece iniciando uma drenagem e reinicie comscontrol reboot ASAP <nodename>, em seguida, reenfileire os trabalhos afetados usando. scontrol requeue <job_id> Isso coloca os trabalhos de volta ao estado pendente em vez de cancelá-los.

O que acontece se eu especificar nextState=DOWN?

Se você especificarnextstate=DOWN, o nó será marcado como não íntegro após a reinicialização e acionar a substituição da instância. Para evitar a substituição da instância, não especifique nextstate nem use. nextstate=RESUME

Recursos adicionais do