As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Executar um treinamento distribuído com a biblioteca de paralelismo de dados distribuídos do SageMaker AI
A biblioteca de paralelismo de dados distribuídos do SageMaker AI (SMDDP) amplia os recursos de treinamento do SageMaker em modelos de aprendizado profundo com eficiência de ajuste de escala quase linear fornecendo implementações de operações de comunicação coletiva otimizadas para a infraestrutura da AWS.
Ao treinar grandes modelos de machine learning (ML), como grandes modelos de linguagem (LLMs) e modelos de difusão, em um grande conjunto de dados de treinamento, os profissionais de ML usam clusters de aceleradores e técnicas de treinamento distribuídas para reduzir o tempo de treinamento ou resolver restrições de memória para modelos que não cabem em nenhuma memória da GPU. Os profissionais de ML geralmente começam com vários aceleradores em uma única instância e depois escalam para clusters de instâncias à medida que aumentam seus requisitos de workload. Quanto maior o tamanho do cluster, maior é a sobrecarga de comunicação entre os vários nós, o que causa uma queda no desempenho computacional geral.
Para resolver esses problemas de sobrecarga e memória, a biblioteca SMDDP oferece o seguinte:
-
A biblioteca de SMDDP otimiza as tarefas de treinamento para a infraestrutura de rede da AWS e a topologia de instância de ML do Amazon SageMaker AI.
-
A biblioteca de SMDDP melhora a comunicação entre os nós com implementações de operações de comunicação coletiva
AllReduceeAllGatherque são otimizadas para a infraestrutura da AWS.
Para saber mais sobre os detalhes das ofertas da biblioteca SMDDP, acesse Introdução à biblioteca de paralelismo de dados distribuídos do SageMaker AI.
Para ter mais informações sobre o treinamento com a estratégia de paralelismo do modelo oferecida pelo SageMaker AI, consulte também Biblioteca de paralelismo de modelos do SageMaker v1.x (arquivada).
Tópicos
Introdução à biblioteca de paralelismo de dados distribuídos do SageMaker AI
Frameworks, Regiões da AWS e tipos de instâncias compatíveis
Treinamento distribuído com a biblioteca de paralelismo de dados distribuídos do SageMaker AI
Exemplos de biblioteca de paralelismo de dados do Amazon SageMaker AI
Dicas para configurar a biblioteca de paralelismo de dados distribuídos do SageMaker AI
Perguntas frequentes sobre a biblioteca de paralelismo de dados distribuídos do Amazon SageMaker AI
Solução de problemas para treinamento distribuído no Amazon SageMaker AI
Notas de lançamento da biblioteca de paralelismo de dados distribuídos do SageMaker AI