Framework supportati e Regioni AWS - Amazon SageMaker AI

Framework supportati e Regioni AWS

Prima di utilizzare la libreria SageMaker Model Parallelism v2 (SMP v2), verifica quali sono i framework e i tipi di istanza supportati e se nel tuo account AWS e nella Regione AWS sono presenti quote sufficienti.

Nota

Per controllare gli ultimi aggiornamenti e le note di rilascio della libreria, consulta Note di rilascio della libreria SageMaker Model Parallelism..

Framework supportati

SMP v2 supporta i seguenti framework di deep learning ed è disponibile tramite i container Docker SMP e un canale Conda di SMP. Quando si utilizzano le classi dello strumento di stima dei framework in SageMaker Python SDK e si specifica la configurazione dell’implementazione per utilizzare SMP v2, SageMaker AI rende automaticamente effettivi i container Docker di SMP. Per utilizzare SMP v2, ti consigliamo di mantenere SageMaker Python SDK sempre aggiornato nel tuo ambiente di sviluppo.

Versioni di PyTorch supportate dalla libreria SageMaker Model Parallelism

Versione PyTorch Versione della libreria di parallelismo dei modelli SageMaker URI dell’immagine Docker di SMP URI dell’immagine Enroot di SMP
v2.5.1 smdistributed-modelparallel==v2.8.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 N/D
smdistributed-modelparallel==v2.6.0 N/D
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 N/D
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 N/D
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 N/D
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 N/D

Canale Conda di SMP

Il seguente bucket Amazon S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente come i cluster SageMaker HyperPod, utilizza questo canale Conda per eseguirne correttamente l’installazione.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, consulta Canali nella documentazione di Conda.

Nota

Per trovare le versioni precedenti della libreria SMP v1.x e i DLC preconfezionati, consulta Framework supportati nella documentazione di SMP v1.

Utilizzo di SMP v2 con librerie open source

La libreria SMP v2 funziona con altre librerie open source basate su PyTorch come PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, poiché SMP v2 è compatibile con le API PyTorch FSDP. Se hai ulteriori domande sull’utilizzo della libreria SMP con altre librerie di terze parti, contatta il team di assistenza SMP all’indirizzo sm-model-parallel-feedback@amazon.com.

Regioni AWS

SMP v2 è disponibile nelle seguenti Regioni AWS. Se desideri utilizzare gli URI dell’immagine Docker o il canale Conda di SMP, controlla il seguente elenco, scegli la tua Regione AWS e aggiorna l’URI dell’immagine o l’URL del canale di conseguenza.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipi di istanze supportati

SMP v2 richiede uno dei seguenti tipi di istanza ML.

Tipo di istanza
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
Suggerimento

A partire da SMP v2.2.0 con supporto per PyTorch v2.2.0 e versioni successive, è disponibile Addestramento di precisione misto con FP8 su istanze P5 utilizzando Transformer Engine.

Per le specifiche dei tipi di istanza di machine learning in generale, consulta la sezione Elaborazione accelerata nella pagina Tipi di istanza di Amazon EC2. Per informazioni sui prezzi in base all’istanza, consulta Prezzi di Amazon SageMaker AI.

Se hai ricevuto un messaggio di errore simile al seguente, applica le istruzioni fornite nella sezione Richiesta di aumento delle quote nella Guida per l’utente di AWS Service Quotas.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.