

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Compatibilité avec la bibliothèque SMDDP optimisée pour l'infrastructure AWS
<a name="model-parallel-core-features-v2-smddp-allgather"></a>

Vous pouvez utiliser la bibliothèque de parallélisme de SageMaker modèles v2 (SMP v2) conjointement avec la bibliothèque de [parallélisme de données SageMaker distribué (SMDDP) qui propose une opération de communication collective optimisée](data-parallel.md) pour l'`AllGather`infrastructure. AWS Dans le cadre de l’entraînement distribué, les opérations de communication collective sont conçues pour synchroniser plusieurs applications de travail GPU et échanger des informations entre eux. `AllGather` est l’une des principales opérations de communication collective généralement utilisées dans le parallélisme partitionné des données. Pour en savoir plus sur le `AllGather` fonctionnement du SMDDP, voir [Opération collective `AllGather` de la bibliothèque SMDDP](data-parallel-intro.md#data-parallel-allgather) L'optimisation de telles opérations de communication collective contribuerait directement à accélérer l' end-to-endentraînement sans effets secondaires sur la convergence.

**Note**  
La bibliothèque SMDDP prend en charge les instances P4 et P4de (consultez également [Frameworks et types Régions AWS d'instances pris en charge](distributed-data-parallel-support.md) pour la bibliothèque SMDDP).

La bibliothèque SMDDP s'intègre nativement PyTorch via la couche de groupes de [processus.](https://pytorch.org/docs/stable/distributed.html) Pour utiliser la bibliothèque SMDDP, il suffit d’ajouter deux lignes de code à votre script d’entraînement. Il prend en charge tous les frameworks de formation tels que SageMaker Model Parallelism Library, PyTorch FSDP et. DeepSpeed

Pour activer SMDDP et utiliser son opération `AllGather`, vous devez ajouter deux lignes de code à votre script d’entraînement dans le cadre de [Étape 1 : Adaptez votre script d' PyTorch entraînement FSDP](model-parallel-use-api-v2.md#model-parallel-adapt-pytorch-script-v2). Notez que vous devez d'abord initialiser PyTorch Distributed avec le backend SMDDP, puis exécuter l'initialisation SMP.

```
import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()
```

[SageMaker Les conteneurs Framework](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) pour PyTorch (voir également [Frameworks pris en charge et Régions AWS](distributed-model-parallel-support-v2.md) par SMP v2 et [Frameworks et types Régions AWS d'instances pris en charge](distributed-data-parallel-support.md) par la bibliothèque SMDDP) sont préemballés avec le binaire SMP et le binaire SMDDP. Pour en savoir plus sur les outils de la bibliothèque SMDDP, consultez [Organisez une formation distribuée avec la bibliothèque de parallélisme de données distribué basée sur l' SageMaker IA](data-parallel.md). 