clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster procesos

Esta sección se aplica a los clústeres que se implementan con Slurm. Cuando se utiliza con este programador, AWS ParallelCluster interactúa con el programador de tareas subyacente para gestionar el aprovisionamiento y la eliminación de los nodos de cómputo.

En el caso de los clústeres de HPC basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que proporciona para gestionar los nodos de AWS Batch procesamiento.

`clustermgtd`

El daemon de administración de clústeres (clustermgtd) realiza las siguientes tareas:

Limpie las particiones inactivas
Gestione Slurm las reservas y los nodos asociados a los bloques de capacidad (consulte la siguiente sección)
Administre la capacidad estática para asegurarse de que esté siempre activa y en buen estado
Programador de sincronización con Amazon EC2.
Limpie las instancias huérfanas
Restaure el estado del nodo programador en caso de una terminación de Amazon EC2 que se produzca fuera del flujo de trabajo suspendido
Gestione las instancias de Amazon EC2 en mal estado (aquellas que no superan las comprobaciones de estado de Amazon EC2)
Gestione los eventos de mantenimiento programados
Gestione los nodos del programador en mal estado (aquellos que no pasan las comprobaciones de estado del programador)

Gestión de las Slurm reservas y los nodos asociados a los bloques de capacidad

ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad para Machine Learning (CB). A diferencia de las ODCR, los bloques de capacidad pueden tener una hora de inicio en el futuro y tienen una duración finita en el tiempo.

clustermgtdbusca nodos en mal estado en un bucle, termina cualquier instancia de Amazon EC2 que esté inactiva y los reemplaza por instancias nuevas si son nodos estáticos.

AWS ParallelCluster gestiona los nodos estáticos asociados a los bloques de capacidad de forma diferente: crea un clúster aunque el CB aún no esté activo y lanza automáticamente las instancias una vez que el CB está activo.

Los Slurm nodos que corresponden a los recursos informáticos asociados a los CBs que aún no están activos se mantienen en estado de mantenimiento hasta que se alcanza la hora de inicio del CB. Estos Slurm nodos permanecen en un reservation/maintenance estado asociado al usuario Slurm administrador, lo que significa que pueden aceptar trabajos, pero los trabajos permanecen pendientes hasta que se elimine la Slurm reserva.

clustermgtdcrea o elimina Slurm reservas automáticamente: coloca los nodos CB relacionados en un estado de mantenimiento basado en el estado del CB. Cuando el CB se activa, la Slurm reserva se elimina, los nodos se inician y quedan disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.

Cuando se alcanza la hora de finalización del CB, los nodos vuelven a un reservation/maintenance estado. Cuando el CB deja de estar activo y resubmit/requeue las instancias se dan por terminadas las instancias, los usuarios se encargan de asignar los trabajos a un nuevo queue/compute recurso.

`clusterstatusmgtd`

El daemon de administración del estado del clúster (clusterstatusmgtd) administra la actualización del estado de la flota de cómputo. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y gestiona cualquier solicitud. STOP/START

`computemgtd`

Los procesos del daemon de administración de cómputo (computemgtd) se ejecutan en cada uno de los nodos de cómputo del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo AWS ParallelCluster funciona

AWS servicios utilizados por AWS ParallelCluster