View a markdown version of this page

Solucionando problemas de reinicialização do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solucionando problemas de reinicialização do Slurm no PCS AWS

Quando você encontrar problemas de reinicialização do nó, primeiro verifique o status do nó usandoscontrol show node nodename. Em seguida, examine CloudWatch os registros do Slurm (slurmctld e slurmd) e dos registros do sistema para identificar possíveis erros.

Para solucionar problemas básicos, verifique a conectividade da rede, verifique as configurações do grupo de segurança e garanta que todos os serviços necessários estejam em execução após a reinicialização. Se os problemas persistirem após as etapas básicas de solução de problemas, entre em contato com o AWS Support. Ao entrar em contato com o suporte, forneça trechos de log relevantes, informações de status do nó e um cronograma da tentativa de reinicialização para ajudar a acelerar o processo de resolução.

Recursos adicionais do