

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Usando o operador HyperPod de treinamento
<a name="sagemaker-eks-operator"></a>

 O operador de SageMaker HyperPod treinamento da Amazon ajuda você a acelerar o desenvolvimento de modelos generativos de IA gerenciando com eficiência o treinamento distribuído em grandes clusters de GPU. Ele apresenta recursos inteligentes de recuperação de falhas, detecção de tarefas suspensas e gerenciamento em nível de processo que minimizam as interrupções no treinamento e reduzem os custos. Diferentemente da infraestrutura de treinamento tradicional, que exige a reinicialização completa da tarefa quando ocorrem falhas, esse operador implementa a recuperação do processo cirúrgico para manter as tarefas de treinamento funcionando sem problemas. 

 O operador também trabalha com as funções HyperPod de monitoramento e observabilidade da saúde, fornecendo visibilidade em tempo real da execução do treinamento e monitoramento automático de métricas críticas, como picos de perdas e degradação da produtividade. É possível definir políticas de recuperação por meio de configurações simples de YAML sem alterações no código, permitindo que você responda e se recupere rapidamente de estados de treinamento irrecuperáveis. Esses recursos de monitoramento e recuperação trabalham juntos para manter o desempenho ideal do treinamento e, ao mesmo tempo, minimizar a sobrecarga operacional.

 Embora o Kueue não seja necessário para esse operador de treinamento, o administrador do cluster pode instalá-lo e configurá-lo para aprimorar os recursos de agendamento de tarefas. Para ter mais informações, consulte a [documentação oficial do Kueue](https://kueue.sigs.k8s.io/docs/overview/).

**nota**  
Para usar o operador de treinamento, você deve usar a [versão mais recente da HyperPod AMI](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-release-ami-eks.html). Para fazer o upgrade, use a operação [ UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)da API. Se você usa a [governança de HyperPod tarefas](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-operate-console-ui-governance.html), ela também deve ser a versão mais recente.

## Versões aceitas
<a name="sagemaker-eks-operator-supported-versions"></a>

 O operador HyperPod de treinamento funciona apenas com versões específicas do Kubernetes, Kueue e. HyperPod Consulte a lista abaixo para ver uma relação completa de versões compatíveis. 
+ Versões compatíveis do Kubernetes — 1.28, 1.29, 1.30, 1.31, 1.32 e 1.33
+ Versões sugeridas do Kueue: [v.0.12.2](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.2) e [v.0.12.3](https://github.com/kubernetes-sigs/kueue/releases/tag/v0.12.3).
+ A versão mais recente da HyperPod AMI. Para fazer o upgrade para a versão mais recente da AMI, use a [ UpdateClusterSoftware](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_UpdateClusterSoftware.html)API.
+ [PyTorch 2.4.0 — 2.7.1](https://github.com/pytorch/pytorch/releases)

**nota**  
Coletamos determinadas métricas operacionais rotineiras agregadas e anônimas para fornecer disponibilidade de serviços essenciais. A criação dessas métricas é totalmente automatizada e não envolve a revisão humana da carga de trabalho de treinamento do modelo subjacente. Essas métricas estão relacionadas às operações de um trabalho, ao gerenciamento de recursos e à funcionalidade essencial do serviço.