Observações importantes a serem consideradas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Observações importantes a serem consideradas

Esta seção apresenta várias observações importantes que podem ser úteis para você.

  1. Para migrar para um cluster do Slurm com vários controladores, conclua as etapas seguir.

    1. Siga as instruções em Provisionar recursos usando pilhas do CloudFormation para provisionar todos os recursos necessários.

    2. Siga as instruções em Preparar e fazer upload de scripts de ciclo de vida para fazer upload dos scripts de ciclo de vida atualizados. Ao atualizar o arquivo provisioning_parameters.json, mova o grupo de controladores existente para a seção worker_groups e adicione um novo nome de grupo de controladores na seção controller_group.

    3. Execute a chamada de API update-cluster para criar um grupo de controladores e manter os grupos de instâncias de computação e o grupo de controladores originais.

  2. Para reduzir a escala verticalmente do número de nós controladores, use o comando update-cluster da CLI. Para cada grupo de instâncias do controlador, o número mínimo de nós controladores para o qual você pode reduzir a escala verticalmente é 1. Isso significa que não é possível reduzir a escala verticalmente do número de nós controladores para 0.

    Importante

    Para clusters criados antes de 24 de janeiro de 2025, você deve primeiro atualizar seu software de cluster usando a UpdateClusterSoftwareAPI antes de executar o comando da CLI update-cluster.

    Veja a seguir um exemplo de comando da CLI para reduzir a escala verticalmente do número de nós controladores.

    aws sagemaker update-cluster \ --cluster-name my_cluster \ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount": 3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore": 1 }, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore": 1 }]'
  3. Para excluir em lote os nós do controlador, use o comando batch-delete-cluster-nodesCLI. Para cada grupo de instâncias do controlador, você deve manter pelo menos um nó controlador. Se você quiser excluir em lote todos os nós controladores, a operação de API não funcionará.

    Importante

    Para clusters criados antes de 24 de janeiro de 2025, você deve primeiro atualizar seu software de cluster usando a UpdateClusterSoftwareAPI antes de executar o comando da batch-delete-cluster-nodesCLI.

    Veja a seguir um exemplo de comando da CLI para excluir os nós controladores.

    aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
  4. Para solucionar seus problemas de criação de cluster, verifique a mensagem de falha na página de detalhes do cluster em seu console de SageMaker IA. Você também pode usar CloudWatch registros para solucionar problemas de criação de clusters. No CloudWatch console, escolha Grupos de registros. Em seguida, pesquise clusters para ver a lista de grupos de logs relacionados à criação do seu cluster.

    Imagem mostrando grupos de log de SageMaker HyperPod clusters da Amazon no CloudWatch console.