Compatibilidad con la biblioteca SMDDP optimizada para AWS infraestructura

Puede utilizar la biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) junto con la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), que ofrece una operación de comunicación colectiva optimizada para la infraestructura. AllGather AWS En entrenamiento distribuido, las operaciones de comunicación colectiva están diseñadas para sincronizar varios trabajadores de la GPU e intercambiar información entre ellos. AllGather es una de las principales operaciones de comunicación colectiva que se suele utilizar en el paralelismo de datos particionados. Para obtener más información sobre la operación AllGather del SMDDP, consulte Operación colectiva AllGather de SMDDP Optimizar dichas operaciones de comunicación colectiva contribuiría directamente a un entrenamiento integral más rápido sin efectos secundarios en la convergencia.

nota

La biblioteca SMDDP admite instancias P4 y P4de (consulte también Marcos compatibles, Regiones de AWS, y tipos de instancias con la biblioteca de SMDDP).

La biblioteca SMDDP se integra de forma nativa a través de la capa de grupos de procesos. PyTorch Para usar la biblioteca de SMDDP solo necesita agregar dos líneas de código a su script de entrenamiento. Es compatible con cualquier marco de formación, como SageMaker Model Parallelism Library, FSDP y. PyTorch DeepSpeed

Para activar SMDDP y utilizar su operación AllGather, debe añadir dos líneas de código a su script de entrenamiento como parte de Paso 1: Adapta tu PyTorch guion de formación sobre el FSDP. Tenga en cuenta que primero debe inicializar PyTorch Distributed con el backend de SMDDP y, a continuación, ejecutar la inicialización de SMP.


import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()

SageMaker Los contenedores Framework para PyTorch SMP v2 y la biblioteca SMDDP vienen Marcos compatibles, Regiones de AWS, y tipos de instancias preempaquetados con el binario SMP y el binario SMDDP. Marcos compatibles y Regiones de AWS Para obtener más información sobre la biblioteca de SMDDP, consulte Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos distribuidos de SageMaker IA.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Paralelismo de contexto

Entrenamiento de precisión mixta