As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Frameworks, Regiões da AWS e tipos de instâncias compatíveis
Antes de usar a biblioteca de paralelismo de dados distribuídos do SageMaker AI (SMDDP), verifique quais são os frameworks de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta da AWS e Região da AWS.
Frameworks compatíveis
As tabelas a seguir mostram os frameworks de aprendizado profundo e as versões compatíveis com o SageMaker AI e a SMDDP. A biblioteca de SMDDP está disponível nos contêineres de framework do SageMaker AI
nota
Para verificar as atualizações e notas da versão mais recentes da biblioteca SMDDP, consulte Notas de lançamento da biblioteca de paralelismo de dados distribuídos do SageMaker AI.
PyTorch
| Versão PyTorch | Versão da biblioteca SMDDP | Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP | Imagens do Docker da SMP pré-instaladas com a SMDDP | URL do arquivo binário** |
|---|---|---|---|---|
| v2.3.1 | smdistributed-dataparallel==v2.5.0 |
Indisponível | 658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed_dataparallel-2.5.0-cp311-cp311-linux_x86_64.whl |
| v2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| v2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| v2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
| v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
| v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
| v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
| v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
| v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
** Os URLs dos arquivos binários servem para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Criar seu próprio contêiner do Docker com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.
nota
A biblioteca de SMDDP está disponível nas Regiões da AWS onde os contêineres de framework do SageMaker AI
nota
A biblioteca de SMDDP v1.4.0 e versões posteriores funcionam como um backend de paralelismo de dados distribuídos (torch.distributed) do PyTorch (torch.parallel.DistributedDataParallel). De acordo com a alteração, as seguintes APIs smdistributed
-
smdistributed.dataparallel.torch.distributedestá obsoleto. Em vez disso, use o pacote torch.distributed. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallelestá obsoleto. Em vez disso, use a API torch.nn.parallel.DistributedDataParallel.
Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada da biblioteca de paralelismo de dados distribuídos do SageMaker AI
PyTorch Lightning
A biblioteca de SMDDP está disponível para o PyTorch Lightning nos contêineres de framework do SageMaker AI para PyTorch e nos contêineres do Docker da SMP a seguir.
PyTorch Lightning v2
| Versão do PyTorch Lightning | Versão PyTorch | Versão da biblioteca SMDDP | Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP | Imagens do Docker da SMP pré-instaladas com a SMDDP | URL do arquivo binário** |
|---|---|---|---|---|---|
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 |
763104351884.dkr.ecr. |
Indisponível no momento | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl |
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl |
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 |
763104351884.dkr.ecr. |
658645717510.dkr.ecr. |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl |
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. |
Indisponível | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl |
PyTorch Lightning v1
| Versão do PyTorch Lightning | Versão PyTorch | Versão da biblioteca SMDDP | Imagens de contêiner de framework do SageMaker AI pré-instaladas com a SMDDP | URL do arquivo binário** |
|---|---|---|---|---|
|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
** Os URLs dos arquivos binários servem para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Criar seu próprio contêiner do Docker com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.
nota
O PyTorch Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados nos DLCs do PyTorch. Ao criar um estimador do PyTorch do SageMaker AI e enviar uma solicitação de tarefa de treinamento na Etapa 2, você precisa fornecer requirements.txt para instalar pytorch-lightning e lightning-bolts no contêiner de treinamento do PyTorch do SageMaker AI.
# requirements.txt pytorch-lightning lightning-bolts
Para ter mais informações sobre como especificar o diretório de origem para colocar o arquivo requirements.txt com seu script de treinamento e como enviar uma tarefa, consulte Using third-party libraries
Transformadores Hugging Face
Os contêineres de aprendizado profundo da AWS para Hugging Face usam os contêineres de treinamento do SageMaker para PyTorch e TensorFlow como imagens base. Para consultar as versões da biblioteca Hugging Face Transformers e as versões pareadas do PyTorch e do TensorFlow, consulte as versões mais recentes dos contêineres do Hugging Face
TensorFlow (obsoleto)
Importante
A biblioteca SMDDP interrompeu o compatibilidade com o TensorFlow e não está mais disponível em DLCs para TensorFlow posteriores à v2.11.0. A tabela a seguir lista os DLCs do TensorFlow anteriores com a biblioteca SMDDP instalada.
| Versão do TensorFlow | Versão da biblioteca SMDDP |
|---|---|
| 2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
| 2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regiões da AWS
A biblioteca de SMDDP está disponível em todos as Regiões da AWS onde os contêineres de deep learning da AWS para o SageMaker AI
Tipos de instâncias compatíveis
A biblioteca SMDDP exige um dos seguintes tipos de instância:
| Tipo de instância |
|---|
ml.p3dn.24xlarge* |
ml.p4d.24xlarge |
ml.p4de.24xlarge |
dica
Para executar o treinamento distribuído de forma adequada nos tipos de instâncias habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança de sua VPC para permitir todo o tráfego de entrada e saída de ida e volta para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.
Importante
* A biblioteca SMDDP interrompeu o compatibilidade com otimização de suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o coletivo AllReduce otimizado SMDDP em instâncias ml.p3dn.24xlarge, não haverá mais compatibilidade com desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o coletivo AllGather otimizado SMDDP se encontra disponível somente para instâncias P4.
Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2
Se você encontrou uma mensagem de erro semelhante à apresentada abaixo, siga as instruções em Request a service quota increase for SageMaker AI resources.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.