

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Compatibilidad con la biblioteca SMDDP optimizada para la infraestructura AWS
<a name="model-parallel-core-features-v2-smddp-allgather"></a>

Puede utilizar la biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) junto con la biblioteca de [paralelismo de datos SageMaker distribuidos (SMDDP)](data-parallel.md), que ofrece una operación de comunicación colectiva optimizada para la infraestructura. `AllGather` AWS En entrenamiento distribuido, las operaciones de comunicación colectiva están diseñadas para sincronizar varios trabajadores de la GPU e intercambiar información entre ellos. `AllGather` es una de las principales operaciones de comunicación colectiva que se suele utilizar en el paralelismo de datos particionados. Para obtener más información sobre el `AllGather` funcionamiento del SMDDP, consulte La [Operación colectiva `AllGather` de SMDDP](data-parallel-intro.md#data-parallel-allgather) optimización de estas operaciones de comunicación colectiva contribuiría directamente a una formación más rápida sin efectos secundarios en la convergencia. end-to-end

**nota**  
La biblioteca SMDDP admite instancias P4 y P4de (consulte también [Marcos y tipos Regiones de AWS de instancias compatibles](distributed-data-parallel-support.md) con la biblioteca de SMDDP).

[La biblioteca SMDDP se integra de forma nativa a PyTorch través de la capa de grupos de procesos.](https://pytorch.org/docs/stable/distributed.html) Para usar la biblioteca de SMDDP solo necesita agregar dos líneas de código a su script de entrenamiento. Es compatible con cualquier marco de formación, como SageMaker Model Parallelism Library, FSDP y. PyTorch DeepSpeed

Para activar SMDDP y utilizar su operación `AllGather`, debe añadir dos líneas de código a su script de entrenamiento como parte de [Paso 1: Adapta tu PyTorch guion de formación sobre el FSDP](model-parallel-use-api-v2.md#model-parallel-adapt-pytorch-script-v2). Tenga en cuenta que primero debe inicializar PyTorch Distributed con el backend de SMDDP y, a continuación, ejecutar la inicialización de SMP.

```
import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()
```

[SageMaker Los contenedores Framework](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) para PyTorch SMP v2 y la biblioteca SMDDP vienen [Marcos y tipos Regiones de AWS de instancias compatibles](distributed-data-parallel-support.md) preempaquetados con el binario SMP y el binario SMDDP. [Marcos compatibles y Regiones de AWS](distributed-model-parallel-support-v2.md) Para obtener más información sobre la biblioteca de SMDDP, consulte [Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker IA](data-parallel.md). 