As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando o operador HyperPod de treinamento
O operador de SageMaker HyperPod treinamento da Amazon ajuda você a acelerar o desenvolvimento de modelos generativos de IA gerenciando com eficiência o treinamento distribuído em grandes clusters de GPU. Ele apresenta recursos inteligentes de recuperação de falhas, detecção de tarefas suspensas e gerenciamento em nível de processo que minimizam as interrupções no treinamento e reduzem os custos. Diferentemente da infraestrutura de treinamento tradicional, que exige a reinicialização completa do trabalho quando ocorrem falhas, esse operador implementa a recuperação do processo cirúrgico para manter seus trabalhos de treinamento funcionando sem problemas.
O operador também trabalha com as funções HyperPod de monitoramento e observabilidade da saúde, fornecendo visibilidade em tempo real da execução do treinamento e monitoramento automático de métricas críticas, como picos de perdas e degradação da produtividade. Você pode definir políticas de recuperação por meio de configurações simples de YAML sem alterações no código, permitindo que você responda e se recupere rapidamente de estados de treinamento irrecuperáveis. Esses recursos de monitoramento e recuperação trabalham juntos para manter o desempenho ideal do treinamento e, ao mesmo tempo, minimizar a sobrecarga operacional.
Embora o Kueue não seja necessário para esse operador de treinamento, o administrador do cluster pode instalá-lo e configurá-lo para aprimorar os recursos de agendamento de tarefas. Para obter mais informações, consulte a documentação oficial do Kueue
nota
Para usar o operador de treinamento, você deve usar a versão mais recente da HyperPod AMI. Para fazer o upgrade, use a operação UpdateClusterSoftwareda API. Se você usa a governança de HyperPod tarefas, ela também deve ser a versão mais recente.
Versões aceitas
O operador HyperPod de treinamento funciona apenas com versões específicas do Kubernetes, Kueue e. HyperPod Consulte a lista abaixo para ver a lista completa de versões compatíveis.
-
Versões compatíveis do Kubernetes — 1.28, 1.29, 1.30, 1.31 ou 1.32
-
A versão mais recente da HyperPod AMI. Para fazer o upgrade para a versão mais recente da AMI, use a UpdateClusterSoftwareAPI.
O operador HyperPod de treinamento é compatível com o Kueue, que seu administrador de cluster pode configurar para melhorar os recursos de agendamento de tarefas. Para obter mais informações, consulte a documentação oficial do Kueue
Pré-requisitos
Para usar o operador HyperPod de treinamento, você deve ter preenchido os seguintes pré-requisitos:
-
Configure seu HyperPod cluster com uma Amazon VPC personalizada
-
Instalou a AMI mais recente em seu HyperPod cluster. Para obter mais informações, consulte SageMaker HyperPod Lançamentos da AMI para o Amazon EKS.