

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Notas importantes a tener en cuenta
<a name="sagemaker-hyperpod-multihead-slurm-notes"></a>

En esta sección se proporcionan varias notas importantes que pueden resultarle útiles. 

1. Para migrar a un clúster de Slurm con varios controladores, complete estos pasos.

   1. Siga las instrucciones de [Aprovisionamiento de recursos mediante pilas CloudFormation](sagemaker-hyperpod-multihead-slurm-cfn.md) para aprovisionar todos los recursos necesarios.

   1. Siga las instrucciones de [Preparación y carga de los scripts de ciclo de vida](sagemaker-hyperpod-multihead-slurm-scripts.md) para cargar los scripts de ciclo de vida actualizados. Al actualizar el archivo `provisioning_parameters.json`, mueva el grupo de controladores existente a la sección `worker_groups` y añada un nuevo nombre de grupo de controladores en la sección `controller_group`.

   1. Ejecute la llamada a la API [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html) para crear un nuevo grupo de controladores y conserve los grupos de instancias de computación y el grupo de controladores originales.

1. Para reducir verticalmente el número de nodos de controlador, utilice el comando de la CLI [update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html). Para cada grupo de instancias de controlador, la cantidad mínima de nodos de controlador que puede reducir verticalmente es 1. Esto significa que no puede reducir verticalmente el número de nodos de controlador a 0.
**importante**  
En el caso de los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API antes de ejecutar el comando [CLI update-cluster](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/update-cluster.html).

   El siguiente es un ejemplo de comando de la CLI para reducir verticalmente el número de nodos de controlador.

   ```
   aws sagemaker update-cluster \
       --cluster-name my_cluster \
       --instance-groups '[{                  
       "InstanceGroupName": "controller_ig_name",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 3,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "slurm_execution_role_arn",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "compute-ig_name",       
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://amzn-s3-demo-bucket1",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "compute_node_role_arn",
       "ThreadsPerCore": 1
   }]'
   ```

1. Para eliminar por lotes los nodos de la controladora, utilice el comando [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI. Para cada grupo de instancias de controlador, debe conservar al menos un nodo de controlador. Si quiere eliminar por lotes todos los nodos de controlador, la operación de la API no funcionará.
**importante**  
En el caso de los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la [UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API antes de ejecutar el comando [batch-delete-cluster-nodes](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/batch-delete-cluster-nodes.html)CLI.

   El siguiente es un ejemplo de comando de la CLI para eliminar por lotes los nodos de controlador.

   ```
   aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
   ```

1. Para solucionar los problemas de creación de clústeres, consulta el mensaje de error que aparece en la página de detalles del clúster de tu consola de SageMaker IA. También puedes usar CloudWatch los registros para solucionar problemas de creación de clústeres. En la CloudWatch consola, selecciona **Grupos de registros**. A continuación, busque `clusters` para ver la lista de grupos de registros relacionados con la creación del clúster.  
![\[Imagen que muestra los grupos de registros del SageMaker HyperPod clúster de Amazon en la CloudWatch consola.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-logs.png)