View a markdown version of this page

Solución de problemas de reinicio de Slurm en PCS AWS - AWS PCS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas de reinicio de Slurm en PCS AWS

Cuando tenga problemas con el reinicio del nodo, compruebe primero el estado del nodo mediante. scontrol show node nodename A continuación, examine CloudWatch los registros de Slurm (slurmctld y slurmd) y los registros del sistema para identificar posibles errores.

Para solucionar problemas básicos, compruebe la conectividad de la red, compruebe la configuración del grupo de seguridad y asegúrese de que todos los servicios necesarios estén funcionando tras el reinicio. Si los problemas persisten después de los pasos básicos de solución de problemas, ponte en contacto con AWS Support. Cuando te pongas en contacto con el servicio de asistencia, proporciona los extractos del registro pertinentes, la información sobre el estado del nodo y una cronología del intento de reinicio para acelerar el proceso de resolución.

Recursos adicionales