As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Observações importantes a serem consideradas
Esta seção apresenta várias observações importantes que podem ser úteis para você.
-
Para migrar para um cluster do Slurm com vários controladores, conclua as etapas seguir.
-
Siga as instruções em Provisionar recursos usando pilhas do CloudFormation para provisionar todos os recursos necessários.
-
Siga as instruções em Preparar e fazer upload de scripts de ciclo de vida para fazer upload dos scripts de ciclo de vida atualizados. Ao atualizar o arquivo
provisioning_parameters.json, mova o grupo de controladores existente para a seçãoworker_groupse adicione um novo nome de grupo de controladores na seçãocontroller_group. -
Execute a chamada de API update-cluster para criar um grupo de controladores e manter os grupos de instâncias de computação e o grupo de controladores originais.
-
-
Para reduzir a escala verticalmente do número de nós controladores, use o comando update-cluster da CLI. Para cada grupo de instâncias do controlador, o número mínimo de nós controladores para o qual você pode reduzir a escala verticalmente é 1. Isso significa que não é possível reduzir a escala verticalmente do número de nós controladores para 0.
Importante
Para clusters criados antes de 24 de janeiro de 2025, você deve primeiro atualizar seu software de cluster usando a UpdateClusterSoftwareAPI antes de executar o comando da CLI update-cluster.
Veja a seguir um exemplo de comando da CLI para reduzir a escala verticalmente do número de nós controladores.
aws sagemaker update-cluster \ --cluster-namemy_cluster\ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount":3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore":1}, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount":2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore":1}]' -
Para excluir em lote os nós do controlador, use o comando batch-delete-cluster-nodesCLI. Para cada grupo de instâncias do controlador, você deve manter pelo menos um nó controlador. Se você quiser excluir em lote todos os nós controladores, a operação de API não funcionará.
Importante
Para clusters criados antes de 24 de janeiro de 2025, você deve primeiro atualizar seu software de cluster usando a UpdateClusterSoftwareAPI antes de executar o comando da batch-delete-cluster-nodesCLI.
Veja a seguir um exemplo de comando da CLI para excluir os nós controladores.
aws sagemaker batch-delete-cluster-nodes --cluster-namemy_cluster--node-idsinstance_ids_to_delete -
Para solucionar seus problemas de criação de cluster, verifique a mensagem de falha na página de detalhes do cluster em seu console de SageMaker IA. Você também pode usar CloudWatch registros para solucionar problemas de criação de clusters. No CloudWatch console, escolha Grupos de registros. Em seguida, pesquise
clusterspara ver a lista de grupos de logs relacionados à criação do seu cluster.