Prise en compte des remarques importantes

Cette section contient plusieurs remarques importantes qui pourraient vous être utiles.

Pour migrer vers un cluster Slurm à plusieurs contrôleurs, procédez comme suit.
1. Suivez les instructions dans Approvisionnement de ressources à l'aide de piles CloudFormation pour provisionner toutes les ressources nécessaires.
2. Suivez les instructions dans Préparation et chargement des scripts de cycle de vie pour charger les scripts de cycle de vie mis à jour. Lors de la mise à jour du fichier provisioning_parameters.json, déplacez votre groupe de contrôleurs existant vers la section worker_groups et ajoutez un nouveau nom de groupe de contrôleurs dans la section controller_group.
3. Exécutez l’appel d’API update-cluster pour créer un nouveau groupe de contrôleurs et conserver les groupes d’instances de calcul et le groupe de contrôleurs d’origine.

Pour réduire verticalement le nombre de nœuds de contrôleur, utilisez la commande CLI update-cluster. Pour chaque groupe d’instances de contrôleur, le nombre minimum de nœuds de contrôleur que vous pouvez réduire verticalement est de 1. Cela signifie que vous ne pouvez pas réduire verticalement le nombre de nœuds de contrôleur à 0.

Important

Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'UpdateClusterSoftwareAPI avant d'exécuter la commande update-cluster CLI.

Voici un exemple de commande CLI permettant de réduire verticalement le nombre de nœuds de contrôleur.


aws sagemaker update-cluster \
    --cluster-name my_cluster \
    --instance-groups '[{                  
    "InstanceGroupName": "controller_ig_name",
    "InstanceType": "ml.t3.medium",
    "InstanceCount": 3,
    "LifeCycleConfig": {
        "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
        "OnCreate": "on_create.sh"
    },
    "ExecutionRole": "slurm_execution_role_arn",
    "ThreadsPerCore": 1
},
{
    "InstanceGroupName": "compute-ig_name",       
    "InstanceType": "ml.c5.xlarge",
    "InstanceCount": 2,
    "LifeCycleConfig": {
        "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
        "OnCreate": "on_create.sh"
    },
    "ExecutionRole": "compute_node_role_arn",
    "ThreadsPerCore": 1
}]'

Pour supprimer par lots les nœuds du contrôleur, utilisez la commande batch-delete-cluster-nodesCLI. Pour chaque groupe d’instances de contrôleur, vous devez conserver au moins un nœud de contrôleur. Si vous souhaitez supprimer par lots tous les nœuds de contrôleur, l’opération d’API ne fonctionnera pas.

Important
Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'UpdateClusterSoftwareAPI avant d'exécuter la commande batch-delete-cluster-nodesCLI.

Voici un exemple de commande CLI permettant de supprimer par lots les nœuds de contrôleur.
```
aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
```
Pour résoudre les problèmes liés à la création de votre cluster, consultez le message d'échec affiché sur la page des détails du cluster de votre console SageMaker AI. Vous pouvez également utiliser CloudWatch les journaux pour résoudre les problèmes de création de clusters. Dans la CloudWatch console, choisissez Log groups. Ensuite, recherchez clusters pour afficher la liste des groupes de journaux liés à la création de votre cluster.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d’un cluster

Référence des variables d’environnement