Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWS ParallelCluster procesos
Esta sección se aplica a los clústeres que se implementan con Slurm. Cuando se utiliza con este programador, AWS ParallelCluster interactúa con el programador de tareas subyacente para gestionar el aprovisionamiento y la eliminación de los nodos de cómputo.
En el caso de los clústeres de HPC basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que proporciona para gestionar los nodos de AWS Batch procesamiento.
clustermgtd
El daemon de administración de clústeres (clustermgtd) realiza las siguientes tareas:
-
Limpie las particiones inactivas
-
Gestione Slurm las reservas y los nodos asociados a los bloques de capacidad (consulte la siguiente sección)
-
Administre la capacidad estática para asegurarse de que esté siempre activa y en buen estado
-
Programador de sincronización con Amazon EC2.
-
Limpie las instancias huérfanas
-
Restaure el estado del nodo programador en caso de una terminación de Amazon EC2 que se produzca fuera del flujo de trabajo suspendido
-
Gestione las instancias de Amazon EC2 en mal estado (aquellas que no superan las comprobaciones de estado de Amazon EC2)
-
Gestione los eventos de mantenimiento programados
-
Gestione los nodos del programador en mal estado (aquellos que no pasan las comprobaciones de estado del programador)
Gestión de las Slurm reservas y los nodos asociados a los bloques de capacidad
ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad para Machine Learning (CB). A diferencia de las ODCR, los bloques de capacidad pueden tener una hora de inicio en el futuro y tienen una duración finita en el tiempo.
clustermgtdbusca nodos en mal estado en un bucle, termina cualquier instancia de Amazon EC2 que esté inactiva y los reemplaza por instancias nuevas si son nodos estáticos.
AWS ParallelCluster gestiona los nodos estáticos asociados a los bloques de capacidad de forma diferente: crea un clúster aunque el CB aún no esté activo y lanza automáticamente las instancias una vez que el CB está activo.
Los Slurm nodos que corresponden a los recursos informáticos asociados a los CBs que aún no están activos se mantienen en estado de mantenimiento hasta que se alcanza la hora de inicio del CB. Estos Slurm nodos permanecen en un reservation/maintenance estado asociado al usuario Slurm administrador, lo que significa que pueden aceptar trabajos, pero los trabajos permanecen pendientes hasta que se elimine la Slurm reserva.
clustermgtdcrea o elimina Slurm reservas automáticamente: coloca los nodos CB relacionados en un estado de mantenimiento basado en el estado del CB. Cuando el CB se activa, la Slurm reserva se elimina, los nodos se inician y quedan disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.
Cuando se alcanza la hora de finalización del CB, los nodos vuelven a un reservation/maintenance estado. Cuando el CB deja de estar activo y resubmit/requeue las instancias se dan por terminadas las instancias, los usuarios se encargan de asignar los trabajos a un nuevo queue/compute recurso.
clusterstatusmgtd
El daemon de administración del estado del clúster (clusterstatusmgtd) administra la actualización del estado de la flota de cómputo. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y gestiona cualquier solicitud. STOP/START
computemgtd
Los procesos del daemon de administración de cómputo (computemgtd) se ejecutan en cada uno de los nodos de cómputo del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.