Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas de reinicio de Slurm en PCS AWS
Cuando tenga problemas con el reinicio del nodo, compruebe primero el estado del nodo mediante. scontrol
show node A continuación, examine CloudWatch los registros de Slurm (slurmctld y slurmd) y los registros del sistema para identificar posibles errores.nodename
Para solucionar problemas básicos, compruebe la conectividad de la red, compruebe la configuración del grupo de seguridad y asegúrese de que todos los servicios necesarios estén funcionando tras el reinicio. Si los problemas persisten después de los pasos básicos de solución de problemas, ponte en contacto con AWS Support. Cuando te pongas en contacto con el servicio de asistencia, proporciona los extractos del registro pertinentes, la información sobre el estado del nodo y una cronología del intento de reinicio para acelerar el proceso de resolución.
Recursos adicionales
-
Para monitorizar instancias de AWS PCS mediante Amazon CloudWatch, consulte Supervisión de instancias de AWS PCS mediante Amazon CloudWatch.
-
Para obtener información general sobre la solución de problemas, consulteSolución de problemas en AWS Parallel Computing Service.
-
Para ver la documentación de Slurm, consulte la Guía de solución de problemas de Slurm
.