Note importanti - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note importanti

Questa sezione fornisce diverse note importanti che potrebbero esserti utili.

  1. Per eseguire la migrazione a un cluster Slurm multi-controller, completa queste fasi.

    1. Segui le istruzioni in Provisioning delle risorse con gli stack CloudFormation per allocare tutte le risorse richieste.

    2. Segui le istruzioni in Preparazione e caricamento degli script del ciclo di vita per caricare gli script del ciclo di vita aggiornati. Quando aggiorni il file provisioning_parameters.json, sposta il gruppo di controller esistente nella sezione worker_groups e aggiungi un nuovo nome per il gruppo di controller nella sezione controller_group.

    3. Esegui la chiamata API update-cluster per creare un nuovo gruppo di controller e mantenere i gruppi di istanze di calcolo e il gruppo di controller originali.

  2. Per ridurre verticalmente il numero di nodi controller, utilizza il comando della CLI update-cluster. Per ogni gruppo di istanze del controller, il numero minimo di nodi controller che possono essere ridotti verticalmente è 1. Ciò significa che non è possibile ridurre verticalmente a 0 il numero di nodi controller.

    Importante

    Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'UpdateClusterSoftwareAPI prima di eseguire il comando CLI update-cluster.

    Di seguito è riportato un comando della CLI di esempio per ridurre verticalmente il numero di nodi controller.

    aws sagemaker update-cluster \ --cluster-name my_cluster \ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount": 3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore": 1 }, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore": 1 }]'
  3. Per eliminare in batch i nodi del controller, usa il comando batch-delete-cluster-nodesCLI. Per ogni gruppo di istanze del controller, è necessario mantenere almeno un nodo controller. Per eliminare in batch tutti i nodi controller non può essere utilizzata l’operazione API.

    Importante

    Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'UpdateClusterSoftwareAPI prima di eseguire il comando CLI batch-delete-cluster-nodes.

    Di seguito è riportato un comando della CLI di esempio per eliminare in batch i nodi controller.

    aws sagemaker batch-delete-cluster-nodes --cluster-name my_cluster --node-ids instance_ids_to_delete
  4. Per risolvere i problemi di creazione del cluster, controlla il messaggio di errore nella pagina dei dettagli del cluster nella tua console AI. SageMaker Puoi anche utilizzare CloudWatch i log per risolvere i problemi di creazione dei cluster. Dalla CloudWatch console, scegli Gruppi di log. Quindi, cerca clusters per visualizzare l’elenco dei gruppi di log relativi alla creazione del cluster.

    Immagine che mostra i gruppi di log del SageMaker HyperPod cluster Amazon nella CloudWatch console.