Usando o operador HyperPod de treinamento - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando o operador HyperPod de treinamento

O operador de SageMaker HyperPod treinamento da Amazon ajuda você a acelerar o desenvolvimento de modelos generativos de IA gerenciando com eficiência o treinamento distribuído em grandes clusters de GPU. Ele apresenta recursos inteligentes de recuperação de falhas, detecção de tarefas suspensas e gerenciamento em nível de processo que minimizam as interrupções no treinamento e reduzem os custos. Diferentemente da infraestrutura de treinamento tradicional, que exige a reinicialização completa do trabalho quando ocorrem falhas, esse operador implementa a recuperação do processo cirúrgico para manter seus trabalhos de treinamento funcionando sem problemas.

O operador também trabalha com as funções HyperPod de monitoramento e observabilidade da saúde, fornecendo visibilidade em tempo real da execução do treinamento e monitoramento automático de métricas críticas, como picos de perdas e degradação da produtividade. Você pode definir políticas de recuperação por meio de configurações simples de YAML sem alterações no código, permitindo que você responda e se recupere rapidamente de estados de treinamento irrecuperáveis. Esses recursos de monitoramento e recuperação trabalham juntos para manter o desempenho ideal do treinamento e, ao mesmo tempo, minimizar a sobrecarga operacional.

Embora o Kueue não seja necessário para esse operador de treinamento, o administrador do cluster pode instalá-lo e configurá-lo para aprimorar os recursos de agendamento de tarefas. Para obter mais informações, consulte a documentação oficial do Kueue.

nota

Para usar o operador de treinamento, você deve usar a versão mais recente da HyperPod AMI. Para fazer o upgrade, use a operação UpdateClusterSoftwareda API. Se você usa a governança de HyperPod tarefas, ela também deve ser a versão mais recente.

Versões aceitas

O operador HyperPod de treinamento funciona apenas com versões específicas do Kubernetes, Kueue e. HyperPod Consulte a lista abaixo para ver a lista completa de versões compatíveis.

O operador HyperPod de treinamento é compatível com o Kueue, que seu administrador de cluster pode configurar para melhorar os recursos de agendamento de tarefas. Para obter mais informações, consulte a documentação oficial do Kueue.

Pré-requisitos

Para usar o operador HyperPod de treinamento, você deve ter preenchido os seguintes pré-requisitos: