Frameworks compatíveis e Regiões da AWS - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Frameworks compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de modelos do SageMaker, verifique quais são as frameworks de ML e os tipos de instância compatíveis e se há cotas suficientes na sua conta da AWS e Região da AWS.

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte as Notas da versão em paralelo do modelo do SageMaker na documentação do SageMaker Python SDK.

Estruturas compatíveis

A biblioteca de paralelismo de modelos do SageMaker suporta as seguintes frameworks de aprendizado profundo e está disponível em contêineres de aprendizado profundo (DLC) da AWS ou pode ser baixada como um arquivo binário.

Versões do PyTorch compatíveis com o SageMaker AI e a biblioteca de paralelismo de modelos do SageMaker AI

Versão PyTorch Versão da biblioteca de paralelismo do modelo SageMaker URI da imagem DLC integrado smdistributed-modelparallel URL do arquivo binário**
v2.0.0 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-2.0.0/build-artifacts/2023-04-14-20-14/smdistributed_modelparallel-1.15.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-modelparallel==v1.15.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.13.1/build-artifacts/2023-04-17-15-49/smdistributed_modelparallel-1.15.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-modelparallel==v1.13.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.1/build-artifacts/2022-12-08-21-34/smdistributed_modelparallel-1.13.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-modelparallel==v1.11.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.12.0/build-artifacts/2022-08-12-16-58/smdistributed_modelparallel-1.11.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-modelparallel==v1.10.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker

shttps://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/pytorch-1.11.0/build-artifacts/2022-07-11-19-23/smdistributed_modelparallel-1.10.0-cp38-cp38-linux_x86_64.whl
v1.10.2 smdistributed-modelparallel==v1.7.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.2-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.10.0 smdistributed-modelparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.10.0-gpu-py38-cu113-ubuntu20.04-sagemaker

-
v1.9.1 smdistributed-modelparallel==v1.4.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.9.1-gpu-py38-cu111-ubuntu20.04

-
v1.8.1* smdistributed-modelparallel==v1.6.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.8.1-gpu-py36-cu111-ubuntu18.04

-
nota

A biblioteca de paralelismo do modelo SageMaker v1.6.0 e versões posteriores fornece atributos estendidos para o PyTorch. Para ter mais informações, consulte Principais atributos da Biblioteca de paralelismo de modelos do SageMaker.

** Os URLs dos arquivos binários servem para instalar a biblioteca de paralelismo do modelo SageMaker em contêineres personalizados. Para ter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de modelos distribuídos do SageMaker.

Versões do TensorFlow compatíveis com o SageMaker AI e a biblioteca de paralelismo de modelos do SageMaker AI

Versão do TensorFlow Versão da biblioteca de paralelismo do modelo SageMaker URI da imagem DLC integrado smdistributed-modelparallel
v2.6.0 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.6.0-gpu-py38-cu112-ubuntu20.04
v2.5.1 smdistributed-modelparallel==v1.4.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.5.1-gpu-py37-cu112-ubuntu18.04

Versões do Hugging Face Transformers compatíveis com o SageMaker AI e a biblioteca de paralelismo de dados distribuídos do SageMaker AI

Os contêineres de aprendizado profundo da AWS para Hugging Face usam os contêineres de treinamento do SageMaker para PyTorch e TensorFlow como imagens base. Para pesquisar as versões da biblioteca Hugging Face Transformers e as versões pareadas do PyTorch e do TensorFlow, consulte as versões mais recentes dos contêineres do Hugging Face e as versões anteriores do Hugging Face Container.

Regiões da AWS

A biblioteca em paralelo de dados do SageMaker está disponível em todos os Regiões da AWS onde os contêineres de aprendizado profundo AWS do SageMaker estão em serviço. Para obter mais informações, consulte as Imagens disponíveis de contêineres de aprendizado profundo.

Tipos de instâncias compatíveis

A biblioteca de paralelismo de modelos do SageMaker exige um dos seguintes tipos de instância de ML.

Tipo de instância
ml.g4dn.12xlarge
ml.p3.16xlarge
ml.p3dn.24xlarge
ml.p4d.24xlarge
ml.p4de.24xlarge

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2. Para ter informações sobre preços de instâncias, consulte Preço do Amazon SageMaker AI.

Se você encontrou uma mensagem de erro semelhante à apresentada abaixo, siga as instruções em Request a service quota increase for SageMaker AI resources.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.