As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Solucionando problemas de reinicialização do Slurm no PCS AWS
Quando você encontrar problemas de reinicialização do nó, primeiro verifique o status do nó usandoscontrol
show node . Em seguida, examine CloudWatch os registros do Slurm (slurmctld e slurmd) e dos registros do sistema para identificar possíveis erros.nodename
Para solucionar problemas básicos, verifique a conectividade da rede, verifique as configurações do grupo de segurança e garanta que todos os serviços necessários estejam em execução após a reinicialização. Se os problemas persistirem após as etapas básicas de solução de problemas, entre em contato com o AWS Support. Ao entrar em contato com o suporte, forneça trechos de log relevantes, informações de status do nó e um cronograma da tentativa de reinicialização para ajudar a acelerar o processo de resolução.
Recursos adicionais do
-
Para monitorar instâncias AWS PCS usando CloudWatch, consulte Monitoramento de instâncias AWS PCS usando a Amazon CloudWatch.
-
Para solução geral de problemas, consulteSolução de problemas no serviço de computação AWS paralela.
-
Para obter a documentação do Slurm, consulte o Guia de solução de problemas do Slurm
.