Notas importantes a tener en cuenta - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas importantes a tener en cuenta

En esta sección se proporcionan varias notas importantes que pueden resultarle útiles.

  1. Para migrar a un clúster de Slurm con varios controladores, complete estos pasos.

    1. Siga las instrucciones de Aprovisionamiento de recursos mediante pilas de CloudFormation para aprovisionar todos los recursos necesarios.

    2. Siga las instrucciones de Preparación y carga de los scripts de ciclo de vida para cargar los scripts de ciclo de vida actualizados. Al actualizar el archivo provisioning_parameters.json, mueva el grupo de controladores existente a la sección worker_groups y añada un nuevo nombre de grupo de controladores en la sección controller_group.

    3. Ejecute la llamada a la API update-cluster para crear un nuevo grupo de controladores y conserve los grupos de instancias de computación y el grupo de controladores originales.

  2. Para reducir verticalmente el número de nodos de controlador, utilice el comando de la CLI update-cluster. Para cada grupo de instancias de controlador, la cantidad mínima de nodos de controlador que puede reducir verticalmente es 1. Esto significa que no puede reducir verticalmente el número de nodos de controlador a 0.

    importante

    Para los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la UpdateClusterSoftwareAPI antes de ejecutar el comando CLI update-cluster.

    El siguiente es un ejemplo de comando de la CLI para reducir verticalmente el número de nodos de controlador.

    aws sagemaker update-cluster \ --cluster-name my_cluster \ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount": 3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore": 1 }, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore": 1 }]'
  3. Para eliminar por lotes los nodos de la controladora, utilice el comando batch-delete-cluster-nodesCLI. Para cada grupo de instancias de controlador, debe conservar al menos un nodo de controlador. Si quiere eliminar por lotes todos los nodos de controlador, la operación de la API no funcionará.

    importante

    En el caso de los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la UpdateClusterSoftwareAPI antes de ejecutar el comando batch-delete-cluster-nodesCLI.

    El siguiente es un ejemplo de comando de la CLI para eliminar por lotes los nodos de controlador.

    aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
  4. Para solucionar los problemas de creación de clústeres, consulta el mensaje de error que aparece en la página de detalles del clúster de tu consola de SageMaker IA. También puedes usar CloudWatch los registros para solucionar problemas de creación de clústeres. En la CloudWatch consola, selecciona Grupos de registros. A continuación, busque clusters para ver la lista de grupos de registros relacionados con la creación del clúster.

    Imagen que muestra los grupos de registros del SageMaker HyperPod clúster de Amazon en la CloudWatch consola.