Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Prise en compte des remarques importantes
Cette section contient plusieurs remarques importantes qui pourraient vous être utiles.
-
Pour migrer vers un cluster Slurm à plusieurs contrôleurs, procédez comme suit.
-
Suivez les instructions dans Provisionnement des ressources à l’aide de piles CloudFormation pour provisionner toutes les ressources nécessaires.
-
Suivez les instructions dans Préparation et chargement des scripts de cycle de vie pour charger les scripts de cycle de vie mis à jour. Lors de la mise à jour du fichier
provisioning_parameters.json, déplacez votre groupe de contrôleurs existant vers la sectionworker_groupset ajoutez un nouveau nom de groupe de contrôleurs dans la sectioncontroller_group. -
Exécutez l’appel d’API update-cluster pour créer un nouveau groupe de contrôleurs et conserver les groupes d’instances de calcul et le groupe de contrôleurs d’origine.
-
-
Pour réduire verticalement le nombre de nœuds de contrôleur, utilisez la commande CLI update-cluster. Pour chaque groupe d’instances de contrôleur, le nombre minimum de nœuds de contrôleur que vous pouvez réduire verticalement est de 1. Cela signifie que vous ne pouvez pas réduire verticalement le nombre de nœuds de contrôleur à 0.
Important
Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'UpdateClusterSoftwareAPI avant d'exécuter la commande update-cluster CLI.
Voici un exemple de commande CLI permettant de réduire verticalement le nombre de nœuds de contrôleur.
aws sagemaker update-cluster \ --cluster-namemy_cluster\ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount":3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore":1}, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount":2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore":1}]' -
Pour supprimer par lots les nœuds du contrôleur, utilisez la commande batch-delete-cluster-nodesCLI. Pour chaque groupe d’instances de contrôleur, vous devez conserver au moins un nœud de contrôleur. Si vous souhaitez supprimer par lots tous les nœuds de contrôleur, l’opération d’API ne fonctionnera pas.
Important
Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'UpdateClusterSoftwareAPI avant d'exécuter la commande batch-delete-cluster-nodesCLI.
Voici un exemple de commande CLI permettant de supprimer par lots les nœuds de contrôleur.
aws sagemaker batch-delete-cluster-nodes --cluster-namemy_cluster--node-idsinstance_ids_to_delete -
Pour résoudre les problèmes liés à la création de votre cluster, consultez le message d'échec affiché sur la page des détails du cluster de votre console SageMaker AI. Vous pouvez également utiliser CloudWatch les journaux pour résoudre les problèmes de création de clusters. Dans la CloudWatch console, choisissez Log groups. Ensuite, recherchez
clusterspour afficher la liste des groupes de journaux liés à la création de votre cluster.