

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Prise en compte des remarques importantes
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

Cette section contient plusieurs remarques importantes qui pourraient vous être utiles. 

1. Pour migrer vers un cluster Slurm à plusieurs contrôleurs, procédez comme suit.

   1. Suivez les instructions dans [Approvisionnement de ressources à l'aide de piles CloudFormation](sagemaker-hyperpod-multihead-slurm-cfn.md) pour provisionner toutes les ressources nécessaires.

   1. Suivez les instructions dans [Préparation et chargement des scripts de cycle de vie](sagemaker-hyperpod-multihead-slurm-scripts.md) pour charger les scripts de cycle de vie mis à jour. Lors de la mise à jour du fichier `provisioning_parameters.json`, déplacez votre groupe de contrôleurs existant vers la section `worker_groups` et ajoutez un nouveau nom de groupe de contrôleurs dans la section `controller_group`.

   1. Exécutez l’appel d’API [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) pour créer un nouveau groupe de contrôleurs et conserver les groupes d’instances de calcul et le groupe de contrôleurs d’origine.

1. Pour réduire verticalement le nombre de nœuds de contrôleur, utilisez la commande CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html). Pour chaque groupe d’instances de contrôleur, le nombre minimum de nœuds de contrôleur que vous pouvez réduire verticalement est de 1. Cela signifie que vous ne pouvez pas réduire verticalement le nombre de nœuds de contrôleur à 0.
**Important**  
Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API avant d'exécuter la commande [update-cluster CLI](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html).

   Voici un exemple de commande CLI permettant de réduire verticalement le nombre de nœuds de contrôleur.

   ```
   aws sagemaker update-cluster \
       --cluster-name my_cluster \
       --instance-groups '[{                  
       "InstanceGroupName": "controller_ig_name",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 3,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "slurm_execution_role_arn",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "compute-ig_name",       
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "compute_node_role_arn",
       "ThreadsPerCore": 1
   }]'
   ```

1. Pour supprimer par lots les nœuds du contrôleur, utilisez la commande [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI. Pour chaque groupe d’instances de contrôleur, vous devez conserver au moins un nœud de contrôleur. Si vous souhaitez supprimer par lots tous les nœuds de contrôleur, l’opération d’API ne fonctionnera pas.
**Important**  
Pour les clusters créés avant le 24 janvier 2025, vous devez d'abord mettre à jour le logiciel de votre cluster à l'aide de l'[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API avant d'exécuter la commande [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI.

   Voici un exemple de commande CLI permettant de supprimer par lots les nœuds de contrôleur.

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
   ```

1. Pour résoudre les problèmes liés à la création de votre cluster, consultez le message d'échec affiché sur la page des détails du cluster de votre console SageMaker AI. Vous pouvez également utiliser CloudWatch les journaux pour résoudre les problèmes de création de clusters. Dans la CloudWatch console, choisissez **Log groups**. Ensuite, recherchez `clusters` pour afficher la liste des groupes de journaux liés à la création de votre cluster.  
![\[Image montrant les groupes de journaux du SageMaker HyperPod cluster Amazon dans la CloudWatch console.\]](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)