

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Note importanti
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

Questa sezione fornisce diverse note importanti che potrebbero esserti utili. 

1. Per eseguire la migrazione a un cluster Slurm multi-controller, completa queste fasi.

   1. Segui le istruzioni in [Fornitura di risorse tramite stack CloudFormation](sagemaker-hyperpod-multihead-slurm-cfn.md) per allocare tutte le risorse richieste.

   1. Segui le istruzioni in [Preparazione e caricamento degli script del ciclo di vita](sagemaker-hyperpod-multihead-slurm-scripts.md) per caricare gli script del ciclo di vita aggiornati. Quando aggiorni il file `provisioning_parameters.json`, sposta il gruppo di controller esistente nella sezione `worker_groups` e aggiungi un nuovo nome per il gruppo di controller nella sezione `controller_group`.

   1. Esegui la chiamata API [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) per creare un nuovo gruppo di controller e mantenere i gruppi di istanze di calcolo e il gruppo di controller originali.

1. Per ridurre verticalmente il numero di nodi controller, utilizza il comando della CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html). Per ogni gruppo di istanze del controller, il numero minimo di nodi controller che possono essere ridotti verticalmente è 1. Ciò significa che non è possibile ridurre verticalmente a 0 il numero di nodi controller.
**Importante**  
Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API prima di eseguire il comando CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html).

   Di seguito è riportato un comando della CLI di esempio per ridurre verticalmente il numero di nodi controller.

   ```
   aws sagemaker update-cluster \
       --cluster-name my_cluster \
       --instance-groups '[{                  
       "InstanceGroupName": "controller_ig_name",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 3,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "slurm_execution_role_arn",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "compute-ig_name",       
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "compute_node_role_arn",
       "ThreadsPerCore": 1
   }]'
   ```

1. Per eliminare in batch i nodi del controller, usa il comando [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI. Per ogni gruppo di istanze del controller, è necessario mantenere almeno un nodo controller. Per eliminare in batch tutti i nodi controller non può essere utilizzata l’operazione API.
**Importante**  
Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'[UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API prima di eseguire il comando CLI [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html).

   Di seguito è riportato un comando della CLI di esempio per eliminare in batch i nodi controller.

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
   ```

1. Per risolvere i problemi di creazione del cluster, controlla il messaggio di errore nella pagina dei dettagli del cluster nella tua console AI. SageMaker Puoi anche utilizzare CloudWatch i log per risolvere i problemi di creazione dei cluster. **Dalla CloudWatch console, scegli Gruppi di log.** Quindi, cerca `clusters` per visualizzare l’elenco dei gruppi di log relativi alla creazione del cluster.  
![\[Immagine che mostra i gruppi di log del SageMaker HyperPod cluster Amazon nella CloudWatch console.\]](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)