HyperPod recursos de treinamento sem pontos de verificação - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

HyperPod recursos de treinamento sem pontos de verificação

Consulte as páginas a seguir para saber mais sobre os recursos de treinamento no treinamento sem pontos de verificação.

Repositórios de treinamento SageMaker HyperPod sem pontos de verificação da Amazon

HyperPod o treinamento sem ponto de verificação acelera a recuperação de falhas de cluster em ambientes de treinamento distribuídos em grande escala por meio de otimizações em nível de estrutura. Essas otimizações são fornecidas por meio de uma imagem básica de contêiner que inclui melhorias aprimoradas na inicialização da NCCL, otimizações no carregamento de dados e componentes de recuperação em processo e sem pontos de verificação. O pacote de treinamento HyperPod checkpointless é construído sobre essa base.

O treinamento Checkpointless é habilitado por meio de três faixas de otimização que funcionam em conjunto:

  • Melhorias na inicialização da comunicação (NCCL e Gloo) - Elimine os gargalos de comunicação descentralizando as informações de classificação por pares e anéis (caixa vermelha abaixo).

  • Otimizações de carregamento de dados - Reduza o tempo necessário para servir o primeiro lote de dados durante as operações de reinicialização (caixas laranja abaixo).

  • Redução da sobrecarga de reinicialização do programa - Minimize os custos de reinicialização e possibilite o reabastecimento ininterrupto por meio da recuperação do processo em nós íntegros (caixas azuis e verdes abaixo).