View a markdown version of this page

Treinamento Checkpointless na Amazon SageMaker HyperPod - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Treinamento Checkpointless na Amazon SageMaker HyperPod

O treinamento Checkpointless na Amazon SageMaker HyperPod permite uma recuperação mais rápida de falhas na infraestrutura de treinamento. A documentação a seguir ajuda você a começar com o treinamento sem pontos de verificação e o ajuste fino dos modelos. NeMo-supported

O treinamento Checkpointless tem os seguintes pré-requisitos:

O treinamento do Checkpointless SageMaker HyperPod é baseado no Guia do usuário do NVIDIA NeMo Framework. Você pode realizar um treinamento sem pontos de verificação com receitas SageMaker HyperPod pré-criadas. Se você estiver familiarizado NeMo, o processo de usar as receitas de treinamento sem pontos de verificação é semelhante. Com pequenas alterações, você pode começar a treinar um modelo usando recursos de treinamento sem pontos de verificação que permitem que você se recupere rapidamente de falhas de treinamento.

As HyperPod receitas a seguir são pré-configuradas com otimizações de treinamento sem pontos de verificação. Você pode especificar seus caminhos de dados como parte da receita e usar o script de inicialização associado para executar o treinamento (consulte o guia de início rápido abaixo):

Modelo Método Tamanho Nodes Instância Acelerador Fórmula Script Tutorial
PERDA DE PESO Exemplo completo de ajuste fino 120b 16 p5.48xlarge GPU H100 link link link
PERDA DE PESO LoRA-example 120b 2 p5.48xlarge GPU H100 link link link
Lhama3 Exemplo de pré-treinamento 70b 16 p5.48xlarge GPU H100 link link link
Lhama3 LoRA-example 70b 2 p5.48xlarge GPU H100 link link link

O guia de início rápido a seguir fornece tutoriais para usar receitas de treinamento sem pontos de verificação:

Exemplos de introdução

Se você quiser pré-treinar ou ajustar modelos personalizados, consulte. Tutoriais - Pré-treinamento ou ajuste fino de modelos personalizados do Amazon SageMaker HyperPod Checkpointless

Para saber mais sobre a incorporação de componentes específicos de treinamento sem pontos de verificação,. HyperPod recursos de treinamento sem pontos de verificação