Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preguntas frecuentes sobre la API REST de Slurm en PCS AWS
Esta sección responde a las preguntas frecuentes sobre la API REST de Slurm en AWS PCS.
- ¿Qué es la API REST de Slurm?
-
La API REST de Slurm es una interfaz HTTP que le permite interactuar con el administrador de cargas de trabajo de Slurm mediante programación. Puede usar métodos HTTP estándar, como GET, POST y DELETE, para enviar trabajos, monitorear el estado del clúster y administrar los recursos sin necesidad de acceder al clúster desde la línea de comandos.
- ¿Puedo usar los tokens generados por?
scontrol token -
No, la
scontrol tokensalida estándar no es compatible con el AWS PCS. La API REST de PCS Slurm requiere tokens JWT enriquecidos que contengan declaraciones de identidad específicas que incluyan el nombre de usuario (sun), el ID de usuario POSIX (uid) y el grupo (). IDsgidsLos tokens Slurm estándar carecen de estas afirmaciones obligatorias y la API los rechazará. - ¿Puedo acceder a la API desde fuera de mi VPC?
-
No, solo se puede acceder al punto final de la API REST desde su VPC mediante la dirección IP privada del controlador Slurm. Para habilitar el acceso externo, implemente AWS servicios como Application Load Balancer with VPC Link o API Gateway, o establezca conexiones VPN o de emparejamiento de VPC para una conectividad segura.
- ¿Por qué la API usa HTTP en lugar de HTTPS?
-
La API REST de Slurm está pensada para ser un punto final interno dentro de la red privada del clúster. Para las implementaciones de producción que requieren cifrado, puedes implementar la SSL/TLS terminación en un nivel superior de tu arquitectura, por ejemplo, a través de una puerta de enlace de API, un equilibrador de carga o un proxy inverso.
- ¿Cómo puedo controlar el acceso a la API REST?
-
Configure las reglas del grupo de seguridad del clúster para restringir el acceso al puerto 6820 del controlador Slurm. Establezca reglas de entrada para permitir conexiones solo desde rangos de IP confiables o fuentes específicas dentro de su VPC, bloqueando el acceso no autorizado al punto final de la API.
- ¿Cómo se rota la clave de firma de JWT?
-
Pon tu clúster en modo de mantenimiento sin instancias activas y, a continuación, inicia la rotación de claves a través de AWS Secrets Manager. Una vez completada la rotación, vuelva a activar las colas. Todos los tokens JWT existentes dejarán de ser válidos y deberán regenerarse con la nueva clave de firma de Secrets Manager.
- ¿Necesito activar la contabilidad de Slurm para usar la API REST?
-
No, la contabilidad de Slurm no es necesaria para las operaciones básicas de la API REST, como el envío y la supervisión de los trabajos. Sin embargo, todo el
/slurmdbpunto final requiere que la contabilidad esté activa. - ¿Qué herramientas de terceros funcionan con la API REST de AWS PCS?
-
Muchos de los clientes de la API REST de Slurm existentes deberían funcionar con AWS PCS, incluido Slurm Exporter para Prometheus, y las aplicaciones personalizadas que siguen el formato estándar de la API REST de Slurm. SlurmWeb Sin embargo, las herramientas que se basan en la autenticación deberán modificarse
scontrol tokenpara que funcionen con los requisitos del PCS JWT. AWS - ¿El uso de la API REST conlleva algún coste adicional?
-
No, no hay cargos adicionales por habilitar o usar la función de la API REST de Slurm. Como de costumbre, solo paga por los recursos del clúster subyacentes.
- ¿Cómo puedo solucionar los problemas de la API REST?
-
-
Problemas de conectividad de red
Si no puedes acceder al punto final de la API, verás que se ha agotado el tiempo de espera de la conexión o se ha producido un error de «conexión rechazada» al realizar solicitudes HTTP al controlador de clúster.
Qué hacer: compruebe que su cliente esté en la misma VPC o que tenga el enrutamiento de red adecuado y confirme que su grupo de seguridad permita el tráfico HTTP en el puerto 6820 desde su IP o subred de origen.
-
Problemas de autenticación REST de Slurm
Si tu token JWT no es válido, ha caducado o está mal firmado, las solicitudes de API mostrarán el mensaje «Error de autenticación de protocolo» en el campo de errores de la respuesta.
Ejemplos de mensajes de error:
{ "errors": [ { "description": "Batch job submission failed", "error_number": 1007, "error": "Protocol authentication error", "source": "slurm_submit_batch_job()" } ] }Qué hacer: Comprueba que tu token JWT esté formateado correctamente, no haya caducado y esté firmado con la clave correcta de Secrets Manager. Comprueba que el token esté correctamente formado e incluya las afirmaciones necesarias y que utilices el formato de encabezado de autenticación correcto.
-
Job no se ejecuta después de enviarlo
Si su token JWT es válido pero tiene una estructura interna o un contenido incorrectos, es posible que los trabajos hayan entrado en un estado de pausa (
PD) con el código de motivo.JobAdminHeadscontrol show jobÚselo para inspeccionar el trabajo; verá<job-id>JobState=PENDING, Reason=JobHeldAdmin, y.SystemComment=slurm_cred_create failure, holding jobQué hacer: La causa principal puede ser un error en los valores de JWT. Verifique que el token esté estructurado correctamente e incluya las afirmaciones requeridas según la documentación del PCS.
-
Problemas con los permisos del directorio de trabajo
Si la identidad de usuario especificada en su JWT carece de permisos de escritura en el directorio de trabajo del trabajo, el trabajo fallará y generará errores de permiso, algo similar a lo que ocurre
sbatch --chdircon un directorio inaccesible.Qué hacer: Asegúrese de que el usuario especificado en su token de JWT tenga los permisos adecuados para el directorio de trabajo del trabajo.
-
¿Sigues teniendo problemas?
-
Consulte la documentación de SchedMD sobre la especificación
de la API REST. -
Consulte los registros del controlador Slurm para obtener información más detallada sobre los errores (consulte El programador registra en AWS PCS para obtener más información).
-
-