Compatibilidade com a biblioteca SMDDP otimizada para infraestrutura AWS - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Compatibilidade com a biblioteca SMDDP otimizada para infraestrutura AWS

Você pode usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2) em conjunto com a biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP) que oferece a operação de comunicação coletiva otimizada para infraestrutura. AllGather AWS No treinamento distribuído, as operações de comunicação coletiva são projetadas para sincronizar vários operadores da GPU e trocar informações entre eles. AllGather é uma das principais operações de comunicação coletiva normalmente usadas no paralelismo de dados fragmentados. Para saber mais sobre a AllGather operação SMDDP, consulte Operação coletiva do SMDDP AllGather Otimizar essas operações de comunicação coletiva contribuiria diretamente para um end-to-end treinamento mais rápido sem efeitos colaterais na convergência.

nota

A biblioteca de SMDDP é compatível com as instâncias P4 e P4de (consulte também Frameworks, Regiões da AWS e tipos de instâncias compatíveis pela biblioteca de SMDDP).

A biblioteca SMDDP se integra nativamente com a camada do grupo PyTorch de processos. Para usar a biblioteca de SMDDP, você só precisa adicionar duas linhas de código ao script de treinamento. Ele suporta qualquer estrutura de treinamento, como SageMaker Model Parallelism Library, PyTorch FSDP e. DeepSpeed

Para ativar o SMDDP e usar sua operação AllGather, você precisa adicionar duas linhas de código ao script de treinamento como parte do Etapa 1: adaptar o script de treinamento do FSDP do PyTorch. Observe que você precisa primeiro inicializar o PyTorch Distributed com o back-end SMDDP e depois executar a inicialização SMP.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker Os contêineres de estrutura para PyTorch (consulte também Estruturas compatíveis e Regiões da AWS pelo SMP v2 e Frameworks, Regiões da AWS e tipos de instâncias compatíveis pela biblioteca SMDDP) são pré-empacotados com o binário SMP e o binário SMDDP. Para saber mais sobre a biblioteca do SMDDP, consulte Executar um treinamento distribuído com a biblioteca de paralelismo de dados distribuídos do SageMaker AI.