Estrategias de asignación de nodos dinámicos en Slurm 3.7.x

ParallelCluster utiliza dos tipos de estrategias de asignación dinámica de nodos para escalar el clúster:

Asignación basada en la información de nodos solicitada disponible:
- Reanudación de todos los nodos o escalado de lista de nodos:
  
  ParallelCluster amplía el clúster basándose únicamente en los nombres Slurm de la lista de nodos solicitada cuando Slurm ResumeProgram se ejecuta. Asigna recursos de computación a los nodos solo por nombre de nodo. La lista de nombres de nodos puede abarcar varios trabajos.
- Reanudación a nivel de trabajo o escalado a nivel de trabajo:
  
  ParallelCluster amplía el clúster en función de los requisitos de cada trabajo, el número actual de nodos que están asignados al trabajo y los nodos que deben reanudarse. ParallelCluster obtiene esta información de la variable de SLURM_RESUME_FILE entorno.
Asignación con una estrategia de lanzamiento de Amazon EC2:
- Escalado óptimo:
  
  ParallelCluster amplía el clúster mediante una llamada a la API de la instancia de lanzamiento de Amazon EC2 con una capacidad de destino mínima igual a 1, para lanzar algunas instancias, pero no necesariamente todas, necesarias para admitir los nodos solicitados.
- Un ll-or-nothing escalamiento:
  
  ParallelCluster amplía el clúster mediante una llamada a la API de la instancia de lanzamiento de Amazon EC2 que solo tiene éxito si se lanzan todas las instancias necesarias para admitir los nodos solicitados. En este caso, llama a la API de la instancia de lanzamiento de Amazon EC2 con una capacidad de destino mínima igual a la capacidad total solicitada.

De forma predeterminada, ParallelCluster utiliza el escalado de listas de nodos con la mejor estrategia de lanzamiento de Amazon EC2 para lanzar algunas instancias, pero no necesariamente todas, necesarias para admitir los nodos solicitados. Intenta proporcionar la mayor capacidad posible para atender la carga de trabajo enviada.

A partir de la ParallelCluster versión 3.7.0, ParallelCluster utiliza el escalado a nivel de trabajo con una estrategia de lanzamiento de all-or-nothingEC2 para los trabajos enviados en modo exclusivo. Cuando envía un trabajo en modo exclusivo, el trabajo tiene acceso exclusivo a los nodos asignados. Para obtener más información, consulte EXCLUSIVE en la documentación de Slurm.

Para enviar un trabajo en modo exclusivo:

Pase la marca de exclusividad al enviar un trabajo de Slurm al clúster. Por ejemplo, sbatch ... --exclusive.

OR
Envíe un trabajo a una cola de clústeres que se haya configurado con el valor JobExclusiveAllocation establecido en true.

Al enviar un trabajo en modo exclusivo:

ParallelCluster actualmente, agrupa las solicitudes de lanzamiento por lotes para incluir hasta 500 nodos. Si un trabajo solicita más de 500 nodos, ParallelCluster realiza una solicitud de all-or-nothinglanzamiento para cada conjunto de 500 nodos y una solicitud de lanzamiento adicional para el resto de los nodos.
Si la asignación de nodos se realiza en un único recurso informático, ParallelCluster realiza una solicitud de all-or-nothinglanzamiento para cada conjunto de 500 nodos y una solicitud de lanzamiento adicional para el resto de los nodos. Si se produce un error en una solicitud de lanzamiento, ParallelCluster cancela la capacidad no utilizada creada por todas las solicitudes de lanzamiento.
Si la asignación de nodos abarca varios recursos informáticos, ParallelCluster debe realizar una solicitud de all-or-nothinglanzamiento para cada recurso informático. Estas solicitudes también se agrupan en lotes. Si se produce un error en una solicitud de lanzamiento para uno de los recursos informáticos, ParallelCluster se cancela la capacidad no utilizada creada por todas las solicitudes de lanzamiento de los recursos informáticos.

escalamiento a nivel de trabajo con limitaciones conocidas de la estrategia de all-or-nothinglanzamiento:

Al enviar un trabajo en un recurso informático con un solo tipo de instancia, en una cola que abarca varias zonas de disponibilidad, la llamada a la API de lanzamiento de all-or-nothingEC2 solo se realiza correctamente si se puede proporcionar toda la capacidad en una sola zona de disponibilidad.
Al enviar un trabajo en un recurso informático con varios tipos de instancias, en una cola con una única zona de disponibilidad, la llamada a la API de lanzamiento de all-or-nothingAmazon EC2 solo se realiza correctamente si un único tipo de instancia puede proporcionar toda la capacidad.
Cuando envías un trabajo en un recurso informático con varios tipos de instancias, en una cola que abarca varias zonas de disponibilidad, no se admite la llamada a la all-or-nothingAPI de lanzamiento de Amazon EC2 ParallelCluster y, en cambio, realiza el escalado al máximo.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Versión 3.8.0

Versión 3.6.x y anteriores

Estrategias de asignación de nodos dinámicos en Slurm 3.7.x

Asignación basada en la información de nodos solicitada disponible:

Asignación con una estrategia de lanzamiento de Amazon EC2: