Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Lancer des instances avec des blocs de capacité (CB)
AWS ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité (CB) pour le Machine Learning. Contrairement à l'ODCR, le CB peut avoir une future heure de début et est limité dans le temps. Pour plus d'informations sur le lancement avec ODCR, voir Lancer des instances avec des réservations de capacité à la demande (ODCR).
Utiliser CB avec AWS ParallelCluster
Pour configurer vos clusters nouveaux ou existants afin qu'ils utilisent un CB, vous devez d'abord avoir un CB valide sur votre AWS compte. Vous pouvez utiliser le AWS Management Console SDK ou le SDK pour trouver et acheter un CB disponible en suivant la documentation officielle. AWS Command Line Interface Une fois que vous avez un CB valide, vous pouvez définir le CB Amazon Resource Name (ARN) et les paramètres associés dans votre fichier AWS ParallelCluster de configuration. Pour plus d'informations, voir Rechercher et acheter des blocs de capacité (CB)
CB dans la configuration du cluster
Pour utiliser un CB pour une file d'attente spécifique, vous devez utiliser le CapacityReservationId paramètre. Configurez-le sur un CB ID existant. Vous pouvez obtenir l'ARN du CB à partir du AWS Management Console ou du SDK que vous avez utilisé pour créer le CB. AWS CLI
Vous devez définir CapacityType = CAPACITY_BLOCK la file d'attente dans laquelle vous souhaitez utiliser le CB. Réglez-le sur la ressource InstanceType de calcul (identique au type d'instance Amazon Elastic Compute Cloud du CB).
Lorsque vous spécifiez le CapacityReservationId au niveau de la ressource de calcul, il InstanceType est facultatif car il sera automatiquement extrait de la réservation.
Lorsque vous l'utilisezCapacityType = CAPACITY_BLOCK, MaxCount il doit être égal ou supérieur à MinCount 0, car toutes les instances faisant partie de la réservation CB sont gérées comme des nœuds statiques.
Au moment de la création du cluster, le nœud principal attend que tous les nœuds statiques soient prêts avant de signaler le succès de la création du cluster. Toutefois, lors de l'utilisationCapacityType = CAPACITY_BLOCK, les nœuds qui font partie des ressources de calcul associées ne seront pas pris en compte pour cette vérification. Le cluster sera créé même si tous les éléments configurés ne sont pas actifs.
L'extrait de fichier de configuration suivant indique les paramètres requis pour être activés dans le fichier de AWS ParallelCluster configuration.
SlurmQueues: - Name: string CapacityType: CAPACITY_BLOCK ComputeResources: - Name: string InstanceType: String (EC2 Instance type of the CB) MinCount: integer (<= total capacity of the CB) MaxCount: integer (equal to MinCount) CapacityReservationTarget: CapacityReservationId: String (CB id)
Comment AWS ParallelCluster utilise les blocs de capacité (CB)
AWS ParallelCluster gère les nœuds statiques associés d'une manière particulière. AWS ParallelCluster crée un cluster même si le CB n'est pas encore actif, et les instances sont lancées automatiquement une fois que le CB est actif.
Les Slurm nœuds qui correspondent aux ressources de calcul, qui sont associés à, mais qui ne sont pas encore actifs, sont maintenus en maintenance jusqu'à ce qu'ils atteignent l'heure de début du CB. Slurmles nœuds restent dans un reservation/maintenance état et sont associés à l'utilisateur administrateur de slurm. Cela signifie qu'ils peuvent accepter des emplois, mais les emplois restent en vigueur pending jusqu'à ce que la réservation soit supprimée.
AWS ParallelCluster met automatiquement à jour les Slurm réservations et met les nœuds CB associés en état de maintenance (correspondant à l'état CB). Lorsque le CB est actif, la Slurm réservation est supprimée et les nœuds démarrent et deviennent disponibles pour les tâches en attente ou pour les nouvelles soumissions de tâches.
Lorsque l'heure de fin du CB est atteinte, les nœuds sont remis à un reservation/maintenance état. C'est aux utilisateurs d'effectuer resubmit/requeue les tâches vers une nouvelle file d'attente/ressource de calcul lorsque le CB n'est plus actif et que les instances sont résiliées.