As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
HyperPod recursos de treinamento sem pontos de verificação
Consulte as páginas a seguir para saber mais sobre os recursos de treinamento no treinamento sem pontos de verificação.
Tópicos
Repositórios de treinamento SageMaker HyperPod sem pontos de verificação da Amazon
HyperPod o treinamento sem ponto de verificação
O treinamento Checkpointless é habilitado por meio de três faixas de otimização que funcionam em conjunto:
-
Melhorias na inicialização da comunicação (NCCL e Gloo) - Elimine os gargalos de comunicação descentralizando as informações de classificação por pares e anéis (caixa vermelha abaixo).
-
Otimizações de carregamento de dados - Reduza o tempo necessário para servir o primeiro lote de dados durante as operações de reinicialização (caixas laranja abaixo).
-
Redução da sobrecarga de reinicialização do programa - Minimize os custos de reinicialização e possibilite o reabastecimento ininterrupto por meio da recuperação do processo em nós íntegros (caixas azuis e verdes abaixo).