

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Compatibilidade com a biblioteca SMDDP otimizada para infraestrutura AWS
<a name="model-parallel-core-features-v2-smddp-allgather"></a>

Você pode usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) em conjunto com a biblioteca de [paralelismo de dados SageMaker distribuídos (SMDDP](data-parallel.md)) que oferece a operação de comunicação coletiva otimizada para infraestrutura. `AllGather` AWS No treinamento distribuído, as operações de comunicação coletiva são projetadas para sincronizar vários operadores da GPU e trocar informações entre eles. `AllGather` é uma das principais operações de comunicação coletiva normalmente usadas no paralelismo de dados fragmentados. Para saber mais sobre a `AllGather` operação SMDDP, consulte [Operação coletiva do SMDDP `AllGather`](data-parallel-intro.md#data-parallel-allgather) Otimizar essas operações de comunicação coletiva contribuiria diretamente para um end-to-end treinamento mais rápido sem efeitos colaterais na convergência.

**nota**  
A biblioteca de SMDDP é compatível com as instâncias P4 e P4de (consulte também [Estruturas e tipos Regiões da AWS de instâncias compatíveis](distributed-data-parallel-support.md) pela biblioteca de SMDDP).

[A biblioteca SMDDP se integra nativamente com a camada do grupo PyTorch de processos.](https://pytorch.org/docs/stable/distributed.html) Para usar a biblioteca de SMDDP, você só precisa adicionar duas linhas de código ao script de treinamento. Ele suporta qualquer estrutura de treinamento, como SageMaker Model Parallelism Library, PyTorch FSDP e. DeepSpeed

Para ativar o SMDDP e usar sua operação `AllGather`, você precisa adicionar duas linhas de código ao script de treinamento como parte do [Etapa 1: Adapte seu script de PyTorch treinamento do FSDP](model-parallel-use-api-v2.md#model-parallel-adapt-pytorch-script-v2). Observe que você precisa primeiro inicializar o PyTorch Distributed com o back-end SMDDP e depois executar a inicialização SMP.

```
import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()
```

[SageMaker Os contêineres de estrutura](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) para PyTorch (consulte também [Estruturas suportadas e Regiões da AWS](distributed-model-parallel-support-v2.md) pelo SMP v2 e [Estruturas e tipos Regiões da AWS de instâncias compatíveis](distributed-data-parallel-support.md) pela biblioteca SMDDP) são pré-empacotados com o binário SMP e o binário SMDDP. Para saber mais sobre a biblioteca do SMDDP, consulte [Execute treinamento distribuído com a biblioteca de paralelismo de dados distribuídos de SageMaker IA](data-parallel.md). 