AWS ParallelCluster processus - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS ParallelCluster processus

Cette section s'applique aux clusters déployés avecSlurm. Lorsqu'il est utilisé avec ce planificateur, il AWS ParallelCluster interagit avec le planificateur de tâches sous-jacent pour gérer le provisionnement et la suppression des nœuds de calcul.

Pour les clusters HPC basés sur AWS Batch, AWS ParallelCluster s'appuie sur les fonctionnalités fournies par AWS Batch pour gérer les nœuds de calcul.

clustermgtd

Le démon de gestion de cluster (clustermgtd) exécute les tâches suivantes :

  • Nettoyez les partitions inactives

  • Gérez les Slurm réservations et les nœuds associés aux blocs de capacité (voir la section suivante)

  • Gérez la capacité statique pour vous assurer qu'elle est toujours active et saine

  • Synchronisez le planificateur avec Amazon EC2.

  • Nettoyer les instances orphelines

  • Restaurez l'état du nœud du planificateur en cas de résiliation d'Amazon EC2 en dehors du flux de travail de suspension

  • Gérez les instances Amazon EC2 défectueuses (celles qui échouent aux tests de santé Amazon EC2)

  • Gérez les événements de maintenance planifiés

  • Gérer les nœuds du planificateur défectueux (ceux qui échouent aux tests de santé du planificateur)

Gestion des Slurm réservations et des nœuds associés aux Capacity Blocks

ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité pour le Machine Learning (CB). Contrairement à l'ODCR, le CB peut avoir une future heure de début et est limité dans le temps.

clustermgtdrecherche les nœuds défectueux dans une boucle, met fin à toutes les instances Amazon EC2 inactives et les remplace par de nouvelles instances s'il s'agit de nœuds statiques.

AWS ParallelCluster gère différemment les nœuds statiques associés aux blocs de capacité : il crée un cluster même si le CB n'est pas encore actif, et lance automatiquement les instances une fois que le CB est actif.

Les Slurm nœuds qui correspondent aux ressources informatiques associées à des nœuds CBs qui ne sont pas encore actifs sont maintenus dans l'état de maintenance jusqu'à ce que l'heure de début du CB soit atteinte. Ces Slurm nœuds restent dans un reservation/maintenance état associé à l'utilisateur Slurm administrateur, ce qui signifie qu'ils peuvent accepter des tâches, mais celles-ci restent en attente jusqu'à ce que la Slurm réservation soit supprimée.

clustermgtdcrée ou supprime automatiquement des Slurm réservations : il place les nœuds CB associés dans un état de maintenance basé sur l'état CB. Lorsque le CB devient actif, la Slurm réservation est supprimée, les nœuds démarrent et deviennent disponibles pour les tâches en attente ou pour les nouvelles soumissions de tâches.

Lorsque l'heure de fin du CB est atteinte, les nœuds sont replacés dans un reservation/maintenance état. C'est aux utilisateurs d'effectuer resubmit/requeue les tâches vers une nouvelle queue/compute ressource lorsque le CB n'est plus actif et que les instances sont résiliées.

clusterstatusmgtd

Le démon de gestion de l'état du cluster (clusterstatusmgtd) gère la mise à jour de l'état du parc informatique. Chaque minute, il récupère l'état du parc enregistré dans une table DynamoDB et gère toutes les demandes. STOP/START

computemgtd

Les processus du démon de gestion du calcul (computemgtd) s'exécutent sur chacun des nœuds de calcul du cluster. Toutes les cinq (5) minutes, le démon de gestion du calcul confirme que le nœud principal est joignable et qu'il est sain. Si cinq (5) minutes s'écoulent pendant lesquelles le nœud principal ne peut pas être atteint ou n'est pas sain, le nœud de calcul est arrêté.