Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Note importanti
Questa sezione fornisce diverse note importanti che potrebbero esserti utili.
-
Per eseguire la migrazione a un cluster Slurm multi-controller, completa queste fasi.
-
Segui le istruzioni in Provisioning delle risorse con gli stack CloudFormation per allocare tutte le risorse richieste.
-
Segui le istruzioni in Preparazione e caricamento degli script del ciclo di vita per caricare gli script del ciclo di vita aggiornati. Quando aggiorni il file
provisioning_parameters.json, sposta il gruppo di controller esistente nella sezioneworker_groupse aggiungi un nuovo nome per il gruppo di controller nella sezionecontroller_group. -
Esegui la chiamata API update-cluster per creare un nuovo gruppo di controller e mantenere i gruppi di istanze di calcolo e il gruppo di controller originali.
-
-
Per ridurre verticalmente il numero di nodi controller, utilizza il comando della CLI update-cluster. Per ogni gruppo di istanze del controller, il numero minimo di nodi controller che possono essere ridotti verticalmente è 1. Ciò significa che non è possibile ridurre verticalmente a 0 il numero di nodi controller.
Importante
Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'UpdateClusterSoftwareAPI prima di eseguire il comando CLI update-cluster.
Di seguito è riportato un comando della CLI di esempio per ridurre verticalmente il numero di nodi controller.
aws sagemaker update-cluster \ --cluster-namemy_cluster\ --instance-groups '[{ "InstanceGroupName": "controller_ig_name", "InstanceType": "ml.t3.medium", "InstanceCount":3, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "slurm_execution_role_arn", "ThreadsPerCore":1}, { "InstanceGroupName": "compute-ig_name", "InstanceType": "ml.c5.xlarge", "InstanceCount":2, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket1", "OnCreate": "on_create.sh" }, "ExecutionRole": "compute_node_role_arn", "ThreadsPerCore":1}]' -
Per eliminare in batch i nodi del controller, usa il comando batch-delete-cluster-nodesCLI. Per ogni gruppo di istanze del controller, è necessario mantenere almeno un nodo controller. Per eliminare in batch tutti i nodi controller non può essere utilizzata l’operazione API.
Importante
Per i cluster creati prima del 24 gennaio 2025, è necessario aggiornare il software del cluster utilizzando l'UpdateClusterSoftwareAPI prima di eseguire il comando CLI batch-delete-cluster-nodes.
Di seguito è riportato un comando della CLI di esempio per eliminare in batch i nodi controller.
aws sagemaker batch-delete-cluster-nodes --cluster-namemy_cluster--node-idsinstance_ids_to_delete -
Per risolvere i problemi di creazione del cluster, controlla il messaggio di errore nella pagina dei dettagli del cluster nella tua console AI. SageMaker Puoi anche utilizzare CloudWatch i log per risolvere i problemi di creazione dei cluster. Dalla CloudWatch console, scegli Gruppi di log. Quindi, cerca
clustersper visualizzare l’elenco dei gruppi di log relativi alla creazione del cluster.