Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Compatibilidad con la biblioteca SMDDP optimizada para AWS infraestructura
Puede utilizar la biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) junto con la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), que ofrece una operación de comunicación colectiva optimizada para la infraestructura. AllGather AWS En entrenamiento distribuido, las operaciones de comunicación colectiva están diseñadas para sincronizar varios trabajadores de la GPU e intercambiar información entre ellos. AllGather es una de las principales operaciones de comunicación colectiva que se suele utilizar en el paralelismo de datos particionados. Para obtener más información sobre la operación AllGather del SMDDP, consulte Operación colectiva AllGather de SMDDP Optimizar dichas operaciones de comunicación colectiva contribuiría directamente a un entrenamiento integral más rápido sin efectos secundarios en la convergencia.
nota
La biblioteca SMDDP admite instancias P4 y P4de (consulte también Marcos compatibles, Regiones de AWS, y tipos de instancias con la biblioteca de SMDDP).
La biblioteca SMDDP se integra de forma nativa a través de la capa de grupos de procesos. PyTorch
Para activar SMDDP y utilizar su operación AllGather, debe añadir dos líneas de código a su script de entrenamiento como parte de Paso 1: Adapta tu PyTorch guion de formación sobre el FSDP. Tenga en cuenta que primero debe inicializar PyTorch Distributed con el backend de SMDDP y, a continuación, ejecutar la inicialización de SMP.
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker Los contenedores Framework