Frameworks compatíveis Regiões da AWS Tipos de instâncias compatíveis

Frameworks, Regiões da AWS e tipos de instâncias compatíveis

Antes de usar a biblioteca de paralelismo de dados distribuídos do SageMaker AI (SMDDP), verifique quais são os frameworks de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta da AWS e Região da AWS.

Frameworks compatíveis

As tabelas a seguir mostram os frameworks de aprendizado profundo e as versões compatíveis com o SageMaker AI e a SMDDP. A biblioteca de SMDDP está disponível nos contêineres de framework do SageMaker AI, integrada aos contêineres do Docker distribuídos pela biblioteca de paralelismo de modelos do SageMaker AI (SMP) v2 ou pode ser baixada como um arquivo binário.

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte Notas de lançamento da biblioteca de paralelismo de dados distribuídos do SageMaker AI.

PyTorch

Versão PyTorch	Versão da biblioteca SMDDP	Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP	Imagens do Docker da SMP pré-instaladas com a SMDDP	URL do arquivo binário**
v2.3.1	`smdistributed-dataparallel==v2.5.0`	Indisponível	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl`
v2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	Indisponível no momento	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
v2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
v2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
v2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`
v2.0.0	`smdistributed-dataparallel==v1.8.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl`
v1.13.1	`smdistributed-dataparallel==v1.7.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl`
v1.12.1	`smdistributed-dataparallel==v1.6.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl`
v1.12.0	`smdistributed-dataparallel==v1.5.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl`
v1.11.0	`smdistributed-dataparallel==v1.4.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl`

** Os URLs dos arquivos binários servem para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Criar seu próprio contêiner do Docker com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.

nota

A biblioteca de SMDDP está disponível nas Regiões da AWS onde os contêineres de framework do SageMaker AI e as imagens do Docker da SMP estão disponíveis.

nota

A biblioteca de SMDDP v1.4.0 e versões posteriores funcionam como um backend de paralelismo de dados distribuídos (torch.distributed) do PyTorch (torch.parallel.DistributedDataParallel). De acordo com a alteração, as seguintes APIs smdistributed do pacote distribuído PyTorch foram descontinuadas:

smdistributed.dataparallel.torch.distributed está obsoleto. Em vez disso, use o pacote torch.distributed.
smdistributed.dataparallel.torch.parallel.DistributedDataParallel está obsoleto. Em vez disso, use a API torch.nn.parallel.DistributedDataParallel.

Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada da biblioteca de paralelismo de dados distribuídos do SageMaker AI na documentação do SageMaker AI Python SDK.

PyTorch Lightning

A biblioteca de SMDDP está disponível para o PyTorch Lightning nos contêineres de framework do SageMaker AI para PyTorch e nos contêineres do Docker da SMP a seguir.

PyTorch Lightning v2

Versão do PyTorch Lightning	Versão PyTorch	Versão da biblioteca SMDDP	Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP	Imagens do Docker da SMP pré-instaladas com a SMDDP	URL do arquivo binário**
2.2.5	2.3.0	`smdistributed-dataparallel==v2.3.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker`	Indisponível no momento	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl`
2.2.0	2.2.0	`smdistributed-dataparallel==v2.2.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl`
2.1.2	2.1.0	`smdistributed-dataparallel==v2.1.0`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker`	`658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl`
2.1.0	2.0.1	`smdistributed-dataparallel==v2.0.1`	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker`	Indisponível	`https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl`

PyTorch Lightning v1

Versão do PyTorch Lightning Versão PyTorch Versão da biblioteca SMDDP Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP URL do arquivo binário**

Versão do PyTorch Lightning	Versão PyTorch	Versão da biblioteca SMDDP	Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP	URL do arquivo binário**
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10	1.12.0	`smdistributed-dataparallel==v1.5.0`	763104351884.dkr.ecr.`<region>`.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker	https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0

smdistributed-dataparallel==v1.5.0

763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker

https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

nota

O PyTorch Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados nos DLCs do PyTorch. Ao criar um estimador do PyTorch do SageMaker AI e enviar uma solicitação de tarefa de treinamento na Etapa 2, você precisa fornecer requirements.txt para instalar pytorch-lightning e lightning-bolts no contêiner de treinamento do PyTorch do SageMaker AI.


# requirements.txt
pytorch-lightning
lightning-bolts

Para ter mais informações sobre como especificar o diretório de origem para colocar o arquivo requirements.txt com seu script de treinamento e como enviar uma tarefa, consulte Using third-party libraries na documentação do Amazon SageMaker AI Python SDK.

Transformadores Hugging Face

Os contêineres de aprendizado profundo da AWS para Hugging Face usam os contêineres de treinamento do SageMaker para PyTorch e TensorFlow como imagens base. Para consultar as versões da biblioteca Hugging Face Transformers e as versões pareadas do PyTorch e do TensorFlow, consulte as versões mais recentes dos contêineres do Hugging Face e as versões anteriores do Hugging Face Container.

TensorFlow (obsoleto)

Importante

A biblioteca SMDDP interrompeu o compatibilidade com o TensorFlow e não está mais disponível em DLCs para TensorFlow posteriores à v2.11.0. A tabela a seguir lista os DLCs do TensorFlow anteriores com a biblioteca SMDDP instalada.

Versão do TensorFlow	Versão da biblioteca SMDDP
2.9.1, 2.10.1, 2.11.0	`smdistributed-dataparallel==v1.4.1`
2.8.3	`smdistributed-dataparallel==v1.3.0`

Regiões da AWS

A biblioteca de SMDDP está disponível em todos as Regiões da AWS onde os contêineres de deep learning da AWS para o SageMaker AI e as imagens do Docker da SMP estão disponíveis.

Tipos de instâncias compatíveis

A biblioteca SMDDP exige um dos seguintes tipos de instância:

Tipo de instância
`ml.p3dn.24xlarge`*
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`

dica

Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.

Importante

* A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo AllReduce otimizado SMDDP em instâncias ml.p3dn.24xlarge, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo AllGather otimizado SMDDP se encontra disponível somente para instâncias P4.

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2. Para obter informações sobre a definição de preço de instâncias, consulte Definição de preço do Amazon SageMaker.

Se você encontrou uma mensagem de erro semelhante à apresentada abaixo, siga as instruções em Request a service quota increase for SageMaker AI resources.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Introdução à biblioteca SMDDP

Treinamento distribuído com a biblioteca SMDDP