Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas importantes a tener en cuenta
En esta sección se proporcionan varias notas importantes que pueden resultarle útiles.
-
Para migrar a un clúster de Slurm con varios controladores, complete estos pasos.
-
Siga las instrucciones de Aprovisionamiento de recursos mediante pilas de CloudFormation para aprovisionar todos los recursos necesarios.
-
Siga las instrucciones de Preparación y carga de los scripts de ciclo de vida para cargar los scripts de ciclo de vida actualizados. Al actualizar el archivo
provisioning_parameters.json, mueva el grupo de controladores existente a la secciónworker_groupsy añada un nuevo nombre de grupo de controladores en la seccióncontroller_group. -
Ejecute la llamada a la API update-cluster para crear un nuevo grupo de controladores y conserve los grupos de instancias de computación y el grupo de controladores originales.
-
-
Para reducir verticalmente el número de nodos de controlador, utilice el comando de la CLI update-cluster. Para cada grupo de instancias de controlador, la cantidad mínima de nodos de controlador que puede reducir verticalmente es 1. Esto significa que no puede reducir verticalmente el número de nodos de controlador a 0.
importante
Para los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la UpdateClusterSoftwareAPI antes de ejecutar el comando CLI update-cluster.
El siguiente es un ejemplo de comando de la CLI para reducir verticalmente el número de nodos de controlador.
aws sagemaker update-cluster \ --cluster-namemy_cluster\ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount":3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore":1}, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount":2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore":1}]' -
Para eliminar por lotes los nodos de la controladora, utilice el comando batch-delete-cluster-nodesCLI. Para cada grupo de instancias de controlador, debe conservar al menos un nodo de controlador. Si quiere eliminar por lotes todos los nodos de controlador, la operación de la API no funcionará.
importante
En el caso de los clústeres creados antes del 24 de enero de 2025, primero debe actualizar el software del clúster mediante la UpdateClusterSoftwareAPI antes de ejecutar el comando batch-delete-cluster-nodesCLI.
El siguiente es un ejemplo de comando de la CLI para eliminar por lotes los nodos de controlador.
aws sagemaker batch-delete-cluster-nodes --cluster-namemy_cluster--node-idsinstance_ids_to_delete -
Para solucionar los problemas de creación de clústeres, consulta el mensaje de error que aparece en la página de detalles del clúster de tu consola de SageMaker IA. También puedes usar CloudWatch los registros para solucionar problemas de creación de clústeres. En la CloudWatch consola, selecciona Grupos de registros. A continuación, busque
clusterspara ver la lista de grupos de registros relacionados con la creación del clúster.