Comment ça marche Comptage d’utilisation Création d’un cluster avec le provisionnement continu activé Exigences de capacité minimale (MinCount)

Provisionnement continu pour des opérations de cluster améliorées sur Amazon EKS

SageMaker HyperPod Les clusters Amazon créés avec l'orchestration Amazon EKS prennent désormais en charge le provisionnement continu, une nouvelle fonctionnalité qui permet une flexibilité et une efficacité accrues lors de l'exécution de charges de travail à grande échelle AI/ML . Le provisionnement continu vous permet de démarrer l’entraînement rapidement, de procéder facilement à une mise à l’échelle, d’effectuer la maintenance sans interrompre les opérations et de bénéficier d’une visibilité granulaire sur les opérations du cluster.

Note

Le provisionnement continu est disponible en tant que configuration optionnelle pour les HyperPod clusters créés avec l'orchestration EKS. Les clusters créés avec l’orchestration Slurm utilisent un modèle de mise à l’échelle différent.

Comment ça marche

Le système de provisionnement continu introduit une architecture à état souhaité qui remplace le modèle traditionnel basé sur les demandes. Cette nouvelle architecture permet des opérations parallèles et non bloquantes sur différents niveaux de ressources tout en préservant la stabilité et les performances du système. Le système de provisionnement continu :

accepte la demande : enregistre le nombre d’instances cibles pour chaque groupe d’instances ;
lance le provisionnement : commence à lancer des instances pour atteindre le nombre cible ;

suit la progression : surveille chaque tentative de lancement d’instance et enregistre le statut ;
gère les échecs : retente automatiquement les lancements ayant échoué.

Le provisionnement continu est désactivé par défaut. Pour utiliser cette fonctionnalité, définissez --node-provisioning-mode sur Continuous.

Lorsque le provisionnement continu est activé, vous pouvez lancer plusieurs opérations de mise à l’échelle simultanément sans attendre la fin des opérations précédentes. Cela vous permet de mettre à l’échelle simultanément différents groupes d’instances dans le même cluster et de soumettre plusieurs demandes de mise à l’échelle au même groupe d’instances.

Le provisionnement continu vous permet également d'accéder à une DescribeClusterEventsurveillance détaillée ListClusterEventdes événements et à une visibilité opérationnelle.

Comptage d’utilisation

HyperPod les clusters dotés d'un provisionnement continu utilisent des mesures au niveau de l'instance pour fournir une facturation précise qui reflète l'utilisation réelle des ressources. Cette approche des mesures diffère de la facturation traditionnelle au niveau du cluster, car elle permet de suivre chaque instance indépendamment.

Facturation au niveau de l’instance

Avec le provisionnement continu, la facturation commence et s’arrête au niveau de l’instance individuelle au lieu d’attendre les changements d’état au niveau du cluster. Cette approche présente les avantages suivants :

Exactitude précise de la facturation : la facturation commence lorsque l’exécution du script de cycle de vie commence. Si le script de cycle de vie échoue, le provisionnement de l’instance sera réessayé et la durée d’exécution du script de cycle de vie vous sera facturée.
Mesure indépendante : le cycle de vie de facturation de chaque instance est géré séparément, ce qui permet d’éviter les erreurs de facturation en cascade.
Mises à jour de facturation en temps réel : la facturation commence lorsqu’une instance commence à exécuter son script de cycle de vie et s’arrête lorsque l’instance entre en phase de résiliation.

Cycle de vie de facturation

Chaque instance de votre HyperPod cluster suit le cycle de vie de facturation suivant :

La facturation commence : lorsque l’instance démarre avec succès et commence à exécuter son script de configuration de cycle de vie.
La facturation continue : pendant toute la durée de vie opérationnelle de l’instance.
La facturation s’arrête : lorsque l’instance entre en phase de résiliation, quelle que soit la raison de la résiliation.

Note

La facturation ne démarre pas pour les instances qui ne démarrent pas. Si le lancement d’une instance échoue en raison d’une capacité insuffisante ou d’autres problèmes, cette tentative infructueuse ne vous est pas facturée. La facturation est calculée au niveau de l’instance et les coûts sont agrégés et signalés sous l’Amazon Resource Name (ARN) de votre cluster.

Création d’un cluster avec le provisionnement continu activé

Note

Vous devez disposer d’un cluster Amazon EKS configuré avec la mise en réseau de VPC et les Charts de Helm requis installés. En outre, préparez un script de configuration de cycle de vie et chargez-le dans un compartiment Amazon S3 auquel votre rôle d’exécution peut accéder. Pour de plus amples informations, veuillez consulter Gestion des SageMaker HyperPod clusters orchestrés par Amazon EKS.

L'AWS CLIopération suivante crée un HyperPod cluster avec un groupe d'instances et le provisionnement continu activé.


aws sagemaker create-cluster \ 
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "ig-1",
   "InstanceType": "ml.c5.2xlarge",
   "InstanceCount": 2,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create_noop.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'",
   "ThreadsPerCore": 1,
   "TrainingPlanArn": ""
}' \
--node-provisioning-mode Continuous


// Expected Output:
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>"
}

Après avoir créé votre cluster, vous pouvez utiliser ListClusterNodesou DescribeClusterNodepour obtenir plus d'informations sur les nœuds du cluster.

L'appel de ces opérations renverra un ClusterInstanceStatusDetailsobjet avec l'une des valeurs suivantes :

Running : le nœud est sain et enregistré auprès de l’orchestrateur de cluster (EKS).
Échec : le provisionnement du nœud a échoué, mais le système réessaiera automatiquement de le configurer avec une nouvelle instance. EC2
Pending : le nœud est en cours de provisionnement ou de redémarrage.
ShuttingDown: La terminaison du nœud est en cours. Le nœud prendra le statut d’échec si la résiliation rencontre des problèmes, ou sera supprimé du cluster avec succès.
SystemUpdating: le nœud est soumis à un correctif d'AMI, soit déclenché manuellement, soit dans le cadre de l'application de correctifs à des cronjobs.
DeepHealthCheckInProgress: Des bilans de santé DHCs approfondis () sont en cours. Cela peut prendre de quelques minutes à plusieurs heures selon la nature des tests. Les nœuds défaillants sont remplacés et les nœuds sains passent en mode d’exécution.
NotFound: Utilisé en BatchAddClusterNodesréponse pour indiquer qu'un nœud a été supprimé lors d'une rediffusion idempotente.

Exigences de capacité minimale (MinCount)

MinCount Cette fonctionnalité vous permet de spécifier le nombre minimum d'instances qui doivent être correctement provisionnées avant qu'un groupe d'instances ne passe au InService statut. Cette fonctionnalité permet de mieux contrôler les opérations de dimensionnement et d'éviter les scénarios dans lesquels des groupes d'instances partiellement provisionnés ne peuvent pas être utilisés efficacement pour les charges de travail de formation.

Important

MinCount n'est pas une garantie permanente de capacité minimale. Cela garantit uniquement que le nombre minimum d'instances spécifié est disponible lorsque le groupe d'instances devient disponible pour la première foisInService. De brèves baisses du niveau inférieur MinCount peuvent survenir pendant le fonctionnement normal, par exemple lors de remplacements d'instances défectueux ou d'activités de maintenance.

Comment MinCount fonctionne

Lorsque vous créez ou mettez à jour un groupe d'instances avec MinCount cette option activée, le comportement suivant se produit :

Nouveaux groupes d'instances : le groupe d'instances conserve Creating son statut jusqu'à ce qu'au moins les MinCount instances soient correctement provisionnées et prêtes. Une fois ce seuil atteint, le groupe d'instances passe àInService.
Groupes d'instances existants : lors de MinCount la mise à jour d'un groupe d'instances existant, le statut passe à Updating jusqu'à ce que la nouvelle MinCount exigence soit satisfaite.
Mise à l'échelle continue : si TargetCount cette valeur est supérieure à MinCount, le système de mise à l'échelle continue de tenter de lancer des instances supplémentaires jusqu'à ce qu'elle TargetCount soit atteinte.
Délai d'expiration et annulation : s'il MinCount ne peut pas être satisfait dans les 3 heures, le système rétablit automatiquement le dernier bon état connu du groupe d'instances. Pour plus d'informations sur le comportement de restauration, consultez la section Comportement de restauration automatique.

État du groupe d'instances pendant MinCount les opérations

Les groupes d'instances MinCount configurés présentent le comportement d'état suivant :

Création: Pour les nouveaux groupes d'instances lorsque CurrentCount < MinCount. Le groupe d'instances conserve ce statut jusqu'à ce que la capacité minimale requise soit atteinte.
Mise à jour: Pour les groupes d'instances existants, quand MinCount est modifié et CurrentCount < MinCount. Le groupe d'instances conserve ce statut jusqu'à ce que la nouvelle exigence de capacité minimale soit satisfaite.
InService: Lorsque MinCount ≤ CurrentCount ≤ TargetCount. Le groupe d'instances est prêt à être utilisé et toutes les opérations de mutation sont débloquées.

Pendant Creating notre Updating statut, les restrictions suivantes s'appliquent :

Opérations de mutation telles que BatchAddClusterNodesBatchDeleteClusterNodes, ou UpdateClusterSoftware bloquées
Vous pouvez toujours modifier MinCount les TargetCount valeurs pour corriger les erreurs de configuration
La suppression de clusters et de groupes d'instances est toujours autorisée

Comportement de restauration automatique

Si un groupe d'instances ne peut pas l'atteindre MinCount dans les 3 heures, le système lance automatiquement une restauration pour éviter une attente indéfinie :

Nouveaux groupes d'instances : MinCount et TargetCount réinitialisés à (0, 0)
Groupes d'instances existants : MinCount et leurs valeurs par rapport au dernier InService état TargetCount sont restaurées
Sélection des instances pour la résiliation : si les instances doivent être résiliées lors de la restauration, le système sélectionne d'abord les instances défectueuses, puis celles qui ont été provisionnées le plus récemment.
Transition de statut : le groupe d'instances passe immédiatement à l'InServiceétat après le lancement de la restauration, ce qui permet au système de dimensionnement continu de gérer la capacité en fonction des paramètres de restauration

Le délai d'expiration de 3 heures est réinitialisé chaque fois MinCount qu'il est mis à jour. Par exemple, si vous effectuez MinCount plusieurs mises à jour, le délai d'expiration commence à courir à compter de la dernière mise à jour.

MinCount événements

Le système émet des événements spécifiques pour vous aider à suivre les MinCount opérations :

Capacité minimale atteinte : émise lorsqu'un groupe d'instances atteint avec succès le sien MinCount et passe à InService
Annulation initiée : émise lorsque le délai de 3 heures expire et que la restauration automatique commence

Vous pouvez surveiller ces événements ListClusterEventspour suivre la progression de vos MinCount opérations.

Utilisation de l'API

MinCount est spécifié à l'aide du MinInstanceCount paramètre dans les configurations de groupes d'instances :


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "worker-group",
   "InstanceType": "ml.p4d.24xlarge",
   "InstanceCount": 64,
   "MinInstanceCount": 50,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}' \
--node-provisioning-mode Continuous

Principales considérations relatives à MinCount l'utilisation :

MinInstanceCountdoit être comprise entre 0 et la valeur InstanceCount (incluse) du groupe d'instances spécifié dans CreateClusterou dans la UpdateClusterdemande
Le réglage MinInstanceCount sur 0 (par défaut) préserve le comportement standard de mise à l'échelle continue
Le réglage MinInstanceCount égal à InstanceCount fournit un comportement de all-or-nothing mise à l'échelle
MinCount n'est disponible que pour les clusters dont la valeur NodeProvisioningMode est définie sur Continuous

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Accédez au tableau CloudWatch de bord des informations sur les

Autoscaling sur EKS HyperPod