Configuración de los ajustes personalizados de Slurm en PCS AWS - AWS PIEZAS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de los ajustes personalizados de Slurm en PCS AWS

Usa los ajustes de Slurm personalizados para configurar parámetros de Slurm adicionales en los recursos de clústeres, colas y grupos de nodos de cómputo. Esta versión añade compatibilidad con la configuración de Slurm en los recursos de Queue, lo que proporciona un control pormenorizado de los comportamientos específicos de las particiones.

Ventajas de la configuración personalizada de Slurm

La configuración personalizada de Slurm proporciona un control sofisticado sobre su entorno de HPC basado en PC AWS . Puede implementar una contabilidad detallada, aplicar controles de acceso y optimizar la ejecución de la carga de trabajo mediante quality-of-service configuraciones y políticas de prevención. Estas capacidades garantizan que los trabajos críticos reciban los recursos necesarios y, al mismo tiempo, mantienen una utilización eficiente del clúster. Ya sea que gestione cargas de trabajo aceleradas por la GPU, implemente una programación equitativa o controle los ciclos de vida de los trabajos, las configuraciones personalizadas ayudan a alinear su infraestructura de HPC con los requisitos operativos y los objetivos de investigación.

Configuración de ajustes personalizados

Los ajustes de Slurm personalizados se pueden configurar a través de la AWS consola, la CLI o SDKs durante la creación de recursos, o se pueden modificar posteriormente mediante operaciones de actualización.

AWS Management Console

Acceda a la configuración adicional del programador en la página de creación o edición para cualquier tipo de recurso (clúster, cola o grupo de nodos de cómputo).

Para añadir una nueva configuración
  1. Selecciona Añadir nueva configuración.

  2. Seleccione un nombre de parámetro en el menú desplegable (que incluye breves descripciones de los parámetros).

  3. Proporcione el valor correspondiente.

Para anular una configuración personalizada
  1. Selecciona Eliminar junto al parameter/value par correspondiente.

  2. Cree o actualice el recurso.

AWS CLI

Para la administración programática de la configuración personalizada, utilice el SlurmCustomSettings campo en las operaciones de creación o actualización.

ejemplo — Actualizar el Prolog parámetro en un clúster
aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Prolog,parameterValue="/path/to/prolog.sh"}]'
ejemplo — Configurar una cola para que esté Default en un clúster
aws pcs update-queue \ --cluster-identifier my-cluster \ --queue-identifier my-queue \ --slurm-configuration 'SlurmCustomSettings=[{parameterName=Default,parameterValue=YES}]'
ejemplo — Configuración personalizada Features en un grupo de nodos de cómputo
aws pcs update-compute-node-group \ --cluster-identifier my-cluster \ --compute-node-group-identifier my-cng-1 \ --slurm-configuration \ 'SlurmCustomSettings=[{parameterName=Features,parameterValue="gpu,nvme"}]'

Validación y manejo de errores

AWS PCS implementa un proceso de validación de varios niveles para la configuración personalizada de Slurm. Durante las operaciones de creación y actualización, realizamos validaciones sincrónicas que incluyen:

  • Comprobaciones a nivel de campo: validamos las configuraciones individuales para comprobar los tipos de datos, los valores permitidos y los requisitos de formato correctos. Por ejemplo, nos aseguramos de que los valores de tiempo estén en el formato Slurm correcto y los valores booleanos utilizan las representaciones booleanas de Slurm aceptadas por Slurm.

  • Validaciones sensibles al contexto: algunos ajustes se comparan con el contexto de configuración más amplio. Por ejemplo, algunos parámetros solo son válidos cuando la contabilidad de Slurm está habilitada.

  • Coherencia entre configuraciones: verificamos que las opciones que se excluyen mutuamente no estén configuradas juntas y que las configuraciones interdependientes estén configuradas correctamente.

Si la validación no se realiza correctamente, recibirás un mensaje ValidationException con un código de error específico (por ejemplo, InvalidInput), un mensaje de error claro en el que se describe el problema y una lista de los campos no válidos y sus respectivos detalles de error.

Si bien durante esta validación inicial se detectan muchos problemas, es posible que algunas interacciones complejas entre los ajustes solo se hagan evidentes al aplicar la configuración. En esos casos, la operación fallará con un mensaje de error informativo y se revertirá cualquier cambio parcial.

Limitaciones

AWS El PCS implementa un enfoque de lista de permitidos para proteger la seguridad del servicio y la estabilidad operativa. Los ajustes que puedan comprometer la seguridad de la cuenta de servicio o interferir con las capacidades del servicio gestionado están restringidos. Sin embargo, evaluamos continuamente las necesidades de los clientes y podemos añadir soporte para configuraciones adicionales en función de los comentarios de los clientes.