Frameworks, Regiões da AWS e tipos de instâncias compatíveis - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Frameworks, Regiões da AWS e tipos de instâncias compatíveis

Antes de usar a biblioteca de paralelismo de dados distribuídos do SageMaker AI (SMDDP), verifique quais são os frameworks de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta da AWS e Região da AWS.

Frameworks compatíveis

As tabelas a seguir mostram os frameworks de aprendizado profundo e as versões compatíveis com o SageMaker AI e a SMDDP. A biblioteca de SMDDP está disponível nos contêineres de framework do SageMaker AI, integrada aos contêineres do Docker distribuídos pela biblioteca de paralelismo de modelos do SageMaker AI (SMP) v2 ou pode ser baixada como um arquivo binário.

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte Notas de lançamento da biblioteca de paralelismo de dados distribuídos do SageMaker AI.

PyTorch

Versão PyTorch Versão da biblioteca SMDDP Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP Imagens do Docker da SMP pré-instaladas com a SMDDP URL do arquivo binário**
v2.3.1 smdistributed-dataparallel==v2.5.0 Indisponível 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Indisponível no momento https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Os URLs dos arquivos binários servem para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Criar seu próprio contêiner do Docker com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.

nota

A biblioteca de SMDDP está disponível nas Regiões da AWS onde os contêineres de framework do SageMaker AI e as imagens do Docker da SMP estão disponíveis.

nota

A biblioteca de SMDDP v1.4.0 e versões posteriores funcionam como um backend de paralelismo de dados distribuídos (torch.distributed) do PyTorch (torch.parallel.DistributedDataParallel). De acordo com a alteração, as seguintes APIs smdistributed do pacote distribuído PyTorch foram descontinuadas:

Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada da biblioteca de paralelismo de dados distribuídos do SageMaker AI na documentação do SageMaker AI Python SDK.

PyTorch Lightning

A biblioteca de SMDDP está disponível para o PyTorch Lightning nos contêineres de framework do SageMaker AI para PyTorch e nos contêineres do Docker da SMP a seguir.

PyTorch Lightning v2

Versão do PyTorch Lightning Versão PyTorch Versão da biblioteca SMDDP Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP Imagens do Docker da SMP pré-instaladas com a SMDDP URL do arquivo binário**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Indisponível no momento https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

Versão do PyTorch Lightning Versão PyTorch Versão da biblioteca SMDDP Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP URL do arquivo binário**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Os URLs dos arquivos binários servem para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Criar seu próprio contêiner do Docker com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.

nota

O PyTorch Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados nos DLCs do PyTorch. Ao criar um estimador do PyTorch do SageMaker AI e enviar uma solicitação de tarefa de treinamento na Etapa 2, você precisa fornecer requirements.txt para instalar pytorch-lightning e lightning-bolts no contêiner de treinamento do PyTorch do SageMaker AI.

# requirements.txt pytorch-lightning lightning-bolts

Para ter mais informações sobre como especificar o diretório de origem para colocar o arquivo requirements.txt com seu script de treinamento e como enviar uma tarefa, consulte Using third-party libraries na documentação do Amazon SageMaker AI Python SDK.

Transformadores Hugging Face

Os contêineres de aprendizado profundo da AWS para Hugging Face usam os contêineres de treinamento do SageMaker para PyTorch e TensorFlow como imagens base. Para consultar as versões da biblioteca Hugging Face Transformers e as versões pareadas do PyTorch e do TensorFlow, consulte as versões mais recentes dos contêineres do Hugging Face e as versões anteriores do Hugging Face Container.

TensorFlow (obsoleto)

Importante

A biblioteca SMDDP interrompeu o compatibilidade com o TensorFlow e não está mais disponível em DLCs para TensorFlow posteriores à v2.11.0. A tabela a seguir lista os DLCs do TensorFlow anteriores com a biblioteca SMDDP instalada.

Versão do TensorFlow Versão da biblioteca SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regiões da AWS

A biblioteca de SMDDP está disponível em todos as Regiões da AWS onde os contêineres de deep learning da AWS para o SageMaker AI e as imagens do Docker da SMP estão disponíveis.

Tipos de instâncias compatíveis

A biblioteca SMDDP exige um dos seguintes tipos de instância:

Tipo de instância
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
dica

Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.

Importante

* A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo AllReduce otimizado SMDDP em instâncias ml.p3dn.24xlarge, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo AllGather otimizado SMDDP se encontra disponível somente para instâncias P4.

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2. Para obter informações sobre a definição de preço de instâncias, consulte Definição de preço do Amazon SageMaker.

Se você encontrou uma mensagem de erro semelhante à apresentada abaixo, siga as instruções em Request a service quota increase for SageMaker AI resources.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.