Cómo funciona Slurm en AWS UNIDADES Recupera los registros de las instancias Recupera VPC/Subnet/Security grupos de un ID de instancia Problemas de registro de nodos Problemas de unión al clúster de Slurm

Solucione los problemas de arranque y registro de los nodos de cómputo en AWS UNIDADES

Si los nodos de cómputo no se inician o se registran correctamente en el clúster de AWS PCS, es posible que se presenten los siguientes síntomas:

Los trabajos no comienzan
No puedes conectarte a instancias en AWS Systems Manager
Las instancias se cierran inesperadamente
Las instancias se sustituyen continuamente

Estos errores pueden deberse a problemas durante el lanzamiento de la instancia EC2 o durante el proceso de arranque del nodo de cómputo de AWS PCS. En este tema se describen los procedimientos que le ayudarán a solucionar problemas durante el proceso de arranque del nodo AWS PCS. Para obtener más información sobre cómo solucionar problemas de lanzamiento de instancias EC2, consulte Solución de problemas de lanzamiento de instancias de Amazon EC2 en la Guía del usuario de Amazon Elastic Compute Cloud.

Los errores de Bootstrap se producen cuando una instancia EC2 se lanza correctamente, pero se produce un error durante el proceso de unión al clúster de PCS. AWS El proceso de arranque incluye dos fases principales:

Registro de nodos: la instancia EC2 invoca la acción de la API de RegisterComputeNodeGroupInstance AWS PCS para registrarse en el servicio AWS PCS. Se pueden producir errores debido a los siguientes problemas:
Integración con Slurm: la instancia se ejecuta slurmd y se une al clúster de Slurm. Se pueden producir errores debido a los siguientes problemas:
- Permisos
  - Configuración del grupo de seguridad
  - Slurmctld no puede hacer ping al nodo de cómputo
- Configuración de AMI personalizada
  - Faltan los controladores NVIDIA
  - ResumeTimeout alcanzado

Cómo funciona Slurm en AWS UNIDADES

Podría ayudarlo a comparar la forma estándar en que funciona Slurm con la forma en que funciona Slurm en PCS. AWS

Procesamiento de trabajos estándar de Slurm

Los siguientes pasos se producen en el procesamiento de trabajos estándar de Slurm:

Al enviar un trabajo, lo slurmctld valida y lo pone en cola.
Cuando los recursos estén disponibles, slurmctld asigna los nodos existentes.
slurmdlos daemons ejecutan tareas en los nodos asignados.

Slurm activa el procesamiento de tareas AWS UNIDADES

Los siguientes pasos se producen en el procesamiento de los trabajos de AWS PCS:

Al enviar un trabajo, lo slurmctld valida y lo pone en cola.
Cuando se necesita capacidad adicional, AWS PCS utiliza la plantilla de lanzamiento del grupo de nodos de cómputo para lanzar nuevas instancias de EC2.
Las nuevas instancias se incorporan al clúster:
1. Las instancias se registran en AWS PCS.
2. Las instancias se unen al clúster de Slurm.
Cuando los recursos están listos, slurmctld asigna los nodos (incluidos los que se han iniciado recientemente).
slurmdlos daemons ejecutan tareas en los nodos asignados.

Recupera los registros de las instancias

El primer paso para solucionar los problemas de arranque de los nodos de cómputo es recuperar los registros de las instancias. Puede usar uno de los métodos siguientes:

Recupera VPC/Subnet/Security grupos de un ID de instancia

Para solucionar problemas con los nodos de procesamiento, es posible que tengas que recuperar información sobre la VPC, la subred y los grupos de seguridad asociados a tus instancias. Si no conoces los ID de tus instancias, consulta. Búsqueda de instancias de grupos de nodos de cómputo en AWS PCS

Problemas de registro de nodos

El registro de nodos es la primera acción que ejecuta un nodo de cómputo durante el arranque. El nodo llama al punto final de la API de AWS PCS para registrarse en el AWS PCS. Los errores de registro suelen mostrar mensajes de error similares a los siguientes:

<13>Nov 13 16:23:50 user-data: [2025-11-13T16:23:50.510+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Registering node to cluster <clusterId>
<13>Nov 13 16:24:18 user-data: [2025-11-13T16:24:18.192+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Retriable exception detected.
<13>Nov 13 16:24:18 user-data: [2025-11-13T16:24:18.193+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Response is [specific error message]
<13>Nov 13 16:24:18 user-data: [2025-11-13T16:24:18.194+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Retrying in 31 seconds...
<13>Nov 13 16:24:18 user-data: [2025-11-13T16:24:18.192+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Retriable exception detected.
...
<13>Nov 13 16:25:18 user-data: [2025-11-13T16:25:18.195+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Registration timeout (600 seconds) reached. Exiting.
<13>Nov 13 16:25:18 user-data: [2025-11-13T16:25:18.200+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: ERROR: Error: (2) occurred on line 1 when running /opt/aws/pcs/bin/pcs_bootstrap_init.sh. Shutting down instance.

Perfil de instancia incorrecto

Si el nodo no se puede registrar debido a un perfil de instancia incorrecto, aparecerá el siguiente error:

<13>Nov 13 18:43:08 user-data: [2025-11-13T18:43:08.268+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_init.sh: INFO: Response is {
<13>Nov 13 18:43:08 user-data:   "__type": "com.amazon.coral.service#AccessDeniedException",
<13>Nov 13 18:43:08 user-data:   "Message": "User: arn:aws:sts::<accountId>:assumed-role/<roleName>/<instanceId> is not authorized to perform: pcs:RegisterComputeNodeGroupInstance on resource: arn:aws:pcs:<regionCode>:<accountId>:cluster/<clusterId> as either the resource does not exist, some policy explicitly denies access, or no policy grants access",
<13>Nov 13 18:43:08 user-data:   "nodeID": null
<13>Nov 13 18:43:08 user-data: }

Compruebe que el perfil de instancia asociado al nodo de cómputo tenga el pcs:RegisterComputeNodeGroupInstance permiso. Para obtener más información sobre cómo crear un perfil de instancia válido, consulteCrear un perfil de instancia para AWS PCS.

No puedo conectarme a AWS Puntos finales PCS

Si sus nodos de cómputo están en una subred privada, asegúrese de haber configurado puntos de enlace de VPC AWS para PCS o de que su subred tenga una ruta a una puerta de enlace NAT para el acceso a Internet. Para obtener más información, consulte los siguientes temas:

Acceda a un AWS servicio mediante un punto final de VPC de interfaz en la guía Amazon Virtual Private Cloud AWS PrivateLink.
Puntos finales y cuotas de servicio para AWS UNIDADES.
Conecta tu VPC a otras redes en la Guía del usuario de Amazon Virtual Private Cloud
AWS Redes PCS

Está mal configurada AWS Punto final PCS

Si aparece un mensaje de error similar al siguiente, compruebe la política asociada a su punto final de AWS VPC:

com.amazon.coral.security.AccessDeniedException: User: arn:aws:sts::xxx:assumed-role/<roleName>/<instanceId> is not authorized to perform: pcs:RegisterComputeNodeGroupInstance on resource: arn:aws:pcs:<regionCode>:<accountId>:cluster/<clusterId> as either the resource does not exist, some policy explicitly denies access, or no policy grants access

Para obtener más información sobre cómo configurar los puntos finales de la interfaz de VPC para AWS PCS, consulte. Acceso AWS Parallel Computing Service mediante un punto final de interfaz (AWS PrivateLink)

Instancia en una subred pública sin IP pública

Si la subred no tiene habilitada la asignación automática de IP pública y la configuración de la ruta usa una puerta de enlace a Internet, las instancias no se pueden comunicar con la API de AWS PCS.

Las instancias de una subred con una puerta de enlace a Internet deben tener una dirección IP pública. Para resolver este problema, elige una de las siguientes opciones:

Añada un punto de conexión de VPC para AWS PCS a la VPC de su clúster. Esto permite que las instancias se comuniquen con el AWS PCS sin necesidad de que una dirección IP pública pase por la puerta de enlace de Internet.
Utilice una subred privada con una puerta de enlace NAT, de modo que no sea necesaria una dirección IP pública.
Habilite la asignación automática de direcciones IP públicas a través de su subred o plantilla de lanzamiento para que las instancias puedan contactar con la API a través de la puerta de enlace de Internet. Ten en cuenta que esta opción no es válida para instancias de interfaz de varias redes.

Multi-NIC instancia en una subred pública

Debes usar una subred privada si usas un tipo de instancia que tenga varias interfaces de red (NIC).

AWS Las direcciones IP públicas solo se pueden asignar a instancias lanzadas con una única interfaz de red. Para obtener más información sobre las direcciones IP, consulte Asignar una dirección IPv4 pública durante el lanzamiento de una instancia en la Guía del usuario de Amazon EC2 para instancias de Linux.

Multi-NIC los tipos de instancias requieren una puerta de enlace NAT o un proxy interno en la subred para acceder al punto final del AWS PCS. Como alternativa, puede añadir un punto de enlace de VPC para AWS PCS a la VPC de su clúster.

El secreto del clúster se ha eliminado o marcado para su eliminación

Si el secreto compartido de Slurm en AWS Secrets Manager se ha eliminado o marcado para su eliminación, los nodos de procesamiento no se registrarán y el clúster se verá afectado.

AWS PCS crea automáticamente un secreto compartido de Slurm en AWS Secrets Manager (con el formato de nombre:pcs!slurm-secret-<cluster-id>) al crear un clúster. Este secreto es necesario para garantizar la seguridad de las comunicaciones en el clúster. Para obtener más información, consulte Trabajar con secretos de clústeres en AWS PCS.

Si este secreto se elimina o se marca para eliminarlo, los nodos nuevos no podrán unirse al clúster y es posible que el controlador u otros demonios del clúster (como slurmd yslurmdbd) no puedan volver a unirse al clúster si se reinician.

Para resolver este problema, puedes restaurar el secreto eliminado si aún se encuentra dentro del período de recuperación. Para obtener instrucciones detalladas, consulte Restaurar un secreto de AWS Secrets Manager.

Si el período de recuperación caduca, el secreto no se puede restaurar ni el clúster de AWS PCS afectado. Debe crear un clúster nuevo con la misma configuración. AWS PCS crea automáticamente un nuevo secreto de programador.

Problemas de unión al clúster de Slurm

Tras el registro correcto del nodo, el nodo de cómputo intenta unirse al clúster de Slurm. El slurmd daemon del nodo contacta con el controlador Slurm para registrarse en el clúster. Los errores de unión a Slurm suelen mostrar mensajes de error similares a los siguientes:

<13>Nov  5 17:20:29 user-data: [2024-11-05T17:20:28+00:00] FATAL: Mixlib::ShellOut::ShellCommandFailed: service[slurmd] (aws-pcs-slurm::finalize_slurm line 18) had an error: Mixlib::ShellOut::ShellCommandFailed: Expected process to exit with [0], but received '1'  
<13>Nov  5 17:20:29 user-data: ---- Begin output of ["/usr/bin/systemctl", "--system", "start", "slurmd"] ----  
<13>Nov  5 17:20:29 user-data: STDOUT:   
<13>Nov  5 17:20:29 user-data: STDERR: Job for slurmd.service failed because the control process exited with error code. See "systemctl status slurmd.service" and "journalctl -xe" for details.  
<13>Nov  5 17:20:29 user-data: ---- End output of ["/usr/bin/systemctl", "--system", "start", "slurmd"] ----

Configuración del grupo de seguridad

Compruebe que sus grupos de seguridad estén configurados correctamente para permitir la comunicación entre los nodos de procesamiento y el controlador Slurm. Los grupos de seguridad deben permitir el siguiente tráfico:

Puerto 6817 para slurmd comunicarse con slurmctld
Puerto 6818 para hacer ping slurmctld slurmd

Para obtener más información sobre los requisitos de los grupos de seguridad, consulte los temas siguientes:

importante

El grupo de seguridad de clúster que asoció al clúster durante la creación del clúster también debe configurarse en los grupos de seguridad del grupo de nodos de procesamiento para permitir que los nodos de procesamiento se comuniquen con el controlador.

Faltan los controladores NVIDIA

Si la instancia se inicia correctamente, pero los trabajos no se inician y ves mensajes de error similares a los siguientes en los registros de la instancia, es posible que te falten los controladores de NVIDIA:

<13>Dec  2 13:52:00 user-data: [2024-12-02T13:52:00.094+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_config_always.sh: INFO: nvidia-smi not found!  
...  
<13>Dec  2 13:54:10 user-data: Job for slurmd.service failed because the control process exited with error code. See "systemctl status slurmd.service" and "journalctl -xe" for details.  
<13>Dec  2 13:54:12 user-data: [2024-12-02T13:54:12.718+00:00] - /opt/aws/pcs/bin/pcs_bootstrap_finalize.sh: INFO: systemctl could not start slurmd!

Si te conectas a la instancia y compruebas el estado del slurmd daemon, es posible que aparezca un error similar al siguiente:

$ systemctl status slurmd  
...  
fatal: can't stat gres.conf file /dev/nvidia0: No such file or directory

Para resolver este problema, instale los controladores NVIDIA en la AMI personalizada. Para obtener más información, consulte Paso 4: (opcional) Instalar controladores, bibliotecas y software de aplicación adicionales.

ResumeTimeout alcanzado

Si un nodo de procesamiento y su instancia EC2 se cierran porque el nodo está en mal estado, es posible que AWS PCS no admita la AMI o que haya problemas de red. La instancia EC2 se ejecuta durante aproximadamente 30 minutos hasta que se llega a la de Slurm y ResumeTimeout se marca el nodo como. DOWN

Si la instancia no se inicia correctamente y no está registrada en AWS PCS (no RegisterComputeNodeGroupInstance se requiere la instancia EC2), compruebe los registros de la instancia para ver si hay mensajes de error similares a los siguientes:

/opt/aws/pcs/bin/pcs_bootstrap_init.sh: No such file or directory

Este error indica que el software de arranque del AWS PCS no forma parte de la AMI. Para resolver este problema, asegúrese de que la AMI personalizada incluya el software de arranque de AWS PCS. Para obtener más información, consulte Imágenes personalizadas de Amazon Machine (AMIs) para AWS PCS.

Slurmctld no puede hacer ping al nodo de cómputo

Si la instancia ejecuta correctamente el procedimiento de arranque y está registrada en AWS PCS, pero slurmctld no puede verla ni enviarle trabajos, la instancia se configura después de un tiempo y, DOWN después, se cierra.

Esto puede deberse a una mala configuración de los grupos de seguridad. Por ejemplo, si el puerto 6817 está habilitado slurmd para permitir la comunicación con élslurmctld, pero falta el puerto 6818 para permitir slurmctld el ping. slurmd

Compruebe que sus grupos de seguridad incluyen todas las reglas obligatorias, tal como se indica en. Requisitos y consideraciones sobre los grupos de seguridad

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

La instancia EC2 se cierra y se reemplaza tras el reinicio

MaxJobCount Límite de presentación de trabajos