As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Perguntas frequentes sobre a reinicialização do Slurm no PCS AWS
Encontre respostas para perguntas comuns sobre como usar a reinicialização do Slurm no PCS. AWS
- O que é o suporte à reinicialização do Slurm?
-
Support para o comando nativo do Slurm.
scontrol rebootUse esse comando para reinicializar os nós de computação sem a substituição automática da instância, o que preserva a capacidade da instância EC2 e reduz os custos operacionais. - Quem pode usar os comandos de reinicialização do Slurm?
-
Somente usuários do Slurm Admin (usuários root) podem executar comandos de reinicialização. Usuários comuns que tentarem usar
scontrol rebootreceberão um erro de permissão negada do Slurm sem afetar o nó. - O que acontece com os trabalhos em execução durante uma reinicialização?
-
Por padrão, os trabalhos são concluídos normalmente antes da reinicialização. Com a opção ASAP, o nó é drenado para evitar novos trabalhos, e a reinicialização ocorre após a conclusão dos trabalhos atuais. Os trabalhos podem ser cancelados ou colocados novamente na fila para reinicializações imediatas.
- Como isso é diferente da reinicialização do console EC2?
-
A reinicialização do Slurm preserva a instância do EC2 e evita a substituição, enquanto as reinicializações do console do EC2 acionam o PCS para substituir a instância devido a falhas nas verificações de integridade durante o processo de reinicialização.
- Posso configurar scripts de reinicialização personalizados?
-
Não, a RebootProgram configuração não é suportada na versão inicial. O recurso usa o comportamento padrão de reinicialização do Slurm sem suporte a scripts personalizados.
- Quanto tempo demora a reinicialização do Slurm?
-
O tempo de reinicialização varia de acordo com o tipo de instância, os processos de inicialização do cliente, a configuração da AMI e se os trabalhos precisam ser concluídos primeiro. O processo inclui aguardar a conclusão dos trabalhos, reinicialização física, verificações de integridade e registro do daemon slurmd.
- Posso ver um histórico de reinicializações?
-
Os eventos de reinicialização são registrados nos registros do Slurm (slurmctld e slurmd), que podem ser monitorados. CloudWatch O campo do motivo no status do nó mostra o motivo da reinicialização durante o processo.
- E se um nó ficar preso durante a reinicialização?
-
Se um nó não concluir o processo de reinicialização interno ResumeTimeout, ele será marcado como INATIVO. Verifique se há erros CloudWatch nos registros, verifique a conectividade de rede e examine os registros do slurmd. Entre em contato com AWS o Support se os problemas persistirem.
- Posso reinicializar vários nós ao mesmo tempo?
-
Sim, você pode especificar vários nós no comando de reinicialização:
scontrol reboot ASAP node1,node2,node3 - Como posso reinicializar um nó sem esperar que os trabalhos sejam concluídos?
-
Para reinicializações imediatas dos nós ao enfrentar problemas como nós problemáticos que afetam tarefas de vários nós, degradação significativa do desempenho ou comportamento instável da GPU, você tem duas opções:
-
Cancelar e reinicializar — Primeiro, cancele os trabalhos afetados usando e, em seguida
scancel <job_id>, inicie uma reinicialização imediata usando.scontrol reboot ASAP <nodename>Os trabalhos em execução serão encerrados e precisarão ser reenviados após a recuperação do nó. -
Drenagem e reenfileiramento (menos impactante) — Comece iniciando uma drenagem e reinicie com
scontrol reboot ASAP <nodename>, em seguida, reenfileire os trabalhos afetados usando.scontrol requeue <job_id>Isso coloca os trabalhos de volta ao estado pendente em vez de cancelá-los.
-
- O que acontece se eu especificar nextState=DOWN?
-
Se você especificar
nextstate=DOWN, o nó será marcado como não íntegro após a reinicialização e acionar a substituição da instância. Para evitar a substituição da instância, não especifique nextstate nem use.nextstate=RESUME
Recursos adicionais do
-
Para obter os procedimentos básicos de reinicialização, consulteReinicialize um nó de computação usando o Slurm no PCS AWS.
-
Para solucionar problemas de reinicialização, consulteSolucionando problemas de reinicialização do Slurm no PCS AWS.
-
Para a documentação de reinicialização do Slurm, consulte a documentação do Slurm
scontrol.