Estruturas compatíveis e Regiões da AWS - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estruturas compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de modelos do SageMaker v2 (SMP v2), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes na sua conta da AWS e Região da AWS.

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte Notas de lançamento da biblioteca de paralelismo de modelos do SageMaker.

Frameworks compatíveis

O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres do Docker do SMP e de um canal SMP Conda: Quando você usar as classes de estimador de framework no SageMaker Python SDK e especificar a configuração de distribuição para usar a SMP v2, o SageMaker selecionará automaticamente os contêineres do Docker da SMP. Para usar o SMP v2, recomendamos que sempre mantenha o SageMaker Python SDK atualizado no ambiente de desenvolvimento.

Versões do PyTorch compatíveis com a biblioteca de paralelismo de modelos do SageMaker

Versão PyTorch Versão da biblioteca de paralelismo de modelos do SageMaker URI da imagem do Docker do SMP URI da imagem do Enroot da SMP
v2.5.1 smdistributed-modelparallel==v2.8.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.5.1-gpu-py311-cu124 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.5.1-gpu-py311-cu124.sqsh
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 N/D
smdistributed-modelparallel==v2.6.0 N/D
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 N/D
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 N/D
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 N/D
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 N/D

Canal SMP Conda

O bucket do Amazon S3 a seguir é um canal público Conda hospedado pela equipe de serviço da SMP. Se quiser instalar a biblioteca de SMP v2 em um ambiente como clusters do SageMaker HyperPod, use esse canal Conda para instalar adequadamente a biblioteca de SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obter mais informações sobre os canais Conda em geral, consulte Canais, na documentação Conda.

nota

Para encontrar versões anteriores da biblioteca de SMP v1.x e DLCs pré-empacotados, consulte Estruturas compatíveis, na documentação do SMP v1.

Usar o SMP v2 com bibliotecas de código aberto

A biblioteca de SMP v2 funciona com outras bibliotecas de código aberto baseadas em PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, pois o SMP v2 é compatível com as APIs de FSDP do PyTorch. Se tiver mais perguntas sobre como usar a biblioteca de SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em sm-model-parallel-feedback@amazon.com.

Regiões da AWS

O SMP v2 está disponível nas seguintes Regiões da AWS: Se quiser usar os URIs de imagem do Docker do SMP ou o canal SMP Conda, verifique a lista a seguir, escolha a Região da AWS que corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipos de instâncias compatíveis

O SMP v2 exige um dos seguintes tipos de instância de ML:

Tipo de instância
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
dica

Está disponível Treinamento misto de precisão com FP8 instâncias P5 usando o Transformer Engine a partir do SMP v2.2.0 compatível com o PyTorch v2.2.0 e versões posteriores.

Para especificações dos tipos de instância de machine learning do SageMaker em geral, consulte a seção Computação acelerada, na página Tipos de instância do Amazon EC2. Para ter informações sobre preços de instâncias, consulte Preço do Amazon SageMaker AI.

Se aparecer uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento de cota, no Guia do usuário do Service Quotas da AWS:

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.