As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estruturas compatíveis e Regiões da AWS
Antes de usar a biblioteca de paralelismo de modelos do SageMaker v2 (SMP v2), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes na sua conta da AWS e Região da AWS.
nota
Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte Notas de lançamento da biblioteca de paralelismo de modelos do SageMaker.
Frameworks compatíveis
O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres do Docker do SMP e de um canal SMP Conda: Quando você usar as classes de estimador de framework no SageMaker Python SDK e especificar a configuração de distribuição para usar a SMP v2, o SageMaker selecionará automaticamente os contêineres do Docker da SMP. Para usar o SMP v2, recomendamos que sempre mantenha o SageMaker Python SDK atualizado no ambiente de desenvolvimento.
Versões do PyTorch compatíveis com a biblioteca de paralelismo de modelos do SageMaker
| Versão PyTorch | Versão da biblioteca de paralelismo de modelos do SageMaker | URI da imagem do Docker do SMP | URI da imagem do Enroot da SMP |
|---|---|---|---|
| v2.5.1 | smdistributed-modelparallel==v2.8.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
| v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
N/D | ||
smdistributed-modelparallel==v2.6.0 |
N/D | ||
| v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
N/D |
smdistributed-modelparallel==v2.4.0 |
|||
| v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
N/D |
smdistributed-modelparallel==v2.2.0 |
|||
| v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
N/D |
| v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
N/D |
Canal SMP Conda
O bucket do Amazon S3 a seguir é um canal público Conda hospedado pela equipe de serviço da SMP. Se quiser instalar a biblioteca de SMP v2 em um ambiente como clusters do SageMaker HyperPod, use esse canal Conda para instalar adequadamente a biblioteca de SMP.
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
Para obter mais informações sobre os canais Conda em geral, consulte Canais
nota
Para encontrar versões anteriores da biblioteca de SMP v1.x e DLCs pré-empacotados, consulte Estruturas compatíveis, na documentação do SMP v1.
Usar o SMP v2 com bibliotecas de código aberto
A biblioteca de SMP v2 funciona com outras bibliotecas de código aberto baseadas em PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, pois o SMP v2 é compatível com as APIs de FSDP do PyTorch. Se tiver mais perguntas sobre como usar a biblioteca de SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em sm-model-parallel-feedback@amazon.com.
Regiões da AWS
O SMP v2 está disponível nas seguintes Regiões da AWS: Se quiser usar os URIs de imagem do Docker do SMP ou o canal SMP Conda, verifique a lista a seguir, escolha a Região da AWS que corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Tipos de instâncias compatíveis
O SMP v2 exige um dos seguintes tipos de instância de ML:
| Tipo de instância |
|---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
dica
Está disponível Treinamento misto de precisão com FP8 instâncias P5 usando o Transformer Engine a partir do SMP v2.2.0 compatível com o PyTorch v2.2.0 e versões posteriores.
Para especificações dos tipos de instância de machine learning do SageMaker em geral, consulte a seção Computação acelerada, na página Tipos de instância do Amazon EC2
Se aparecer uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento de cota, no Guia do usuário do Service Quotas da AWS:
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.