

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Escalonamento automático no EKS SageMaker HyperPod
<a name="sagemaker-hyperpod-eks-autoscaling"></a>

 SageMaker HyperPod A Amazon fornece uma solução gerenciada de escalonamento automático de nós baseada em Karpenter para clusters criados com a orquestração EKS. O [Karpenter](https://karpenter.sh/) é um gerenciador de ciclo de vida de nós Kubernetes de código aberto criado por AWS ele que otimiza a escalabilidade do cluster e a eficiência de custos. Ao contrário das implantações autogerenciadas SageMaker HyperPod do Karpenter, a implementação gerenciada elimina a sobrecarga operacional de instalação, configuração e manutenção dos controladores Karpenter, ao mesmo tempo em que fornece resiliência integrada e tolerância a falhas. Essa solução gerenciada de escalonamento automático se baseia nos recursos de [provisionamento contínuo HyperPod](sagemaker-hyperpod-scaling-eks.md) da empresa e permite que você escale com eficiência os recursos de computação para treinamento e inferência de cargas de trabalho com tratamento e recuperação automáticos de falhas. 

Você paga somente pelo que usar. Você é responsável por pagar por todas as instâncias de computação que são provisionadas automaticamente por meio do escalonamento automático de acordo com o preço padrão. SageMaker HyperPod Para obter informações detalhadas sobre preços, consulte [Amazon SageMaker AI](https://aws.amazon.com/sagemaker/ai/pricing/).

Ao habilitar o escalonamento automático baseado em Karpenter com HyperPod, você tem acesso a:
+ **Ciclo de vida gerenciado do serviço** - HyperPod gerencia a instalação, as atualizações e a manutenção do Karpenter, eliminando a sobrecarga operacional.
+ **Provisionamento just-in-time**: o Karpenter observará os pods pendentes e provisionará a computação necessária para as workloads a partir usando um grupo sob demanda.
+ **Ajuste de escala para zero**: reduza a escala vertical dos nós para zero sem precisar manter uma infraestrutura de controlador dedicada.
+ **Seleção de nós com reconhecimento de workload**: o Karpenter escolhe os tipos de instância ideais com base nos requisitos do pod, nas zonas de disponibilidade e nos preços para minimizar os custos.
+ **Consolidação automática de nós**: o Karpenter avalia regularmente o cluster em busca de oportunidades de otimização, mudando as workloads para eliminar nós subutilizados.
+ **Resiliência integrada** - aproveita os mecanismos integrados HyperPod de tolerância a falhas e recuperação de nós.

Os tópicos a seguir explicam como ativar o HyperPod escalonamento automático com o Karpenter.

**Topics**
+ [Pré-requisitos](#sagemaker-hyperpod-eks-autoscaling-prereqs)
+ [Crie uma função do IAM para HyperPod escalonamento automático com o Karpenter](sagemaker-hyperpod-eks-autoscaling-iam.md)
+ [Crie e configure um HyperPod cluster com o escalonamento automático do Karpenter](sagemaker-hyperpod-eks-autoscaling-cluster.md)
+ [Crie um NodeClass](sagemaker-hyperpod-eks-autoscaling-nodeclass.md)
+ [Crie um NodePool](sagemaker-hyperpod-eks-autoscaling-nodepool.md)
+ [Implantar uma workload](sagemaker-hyperpod-eks-autoscaling-workload.md)

## Pré-requisitos
<a name="sagemaker-hyperpod-eks-autoscaling-prereqs"></a>
+ Provisionamento contínuo habilitado em seu HyperPod cluster. Ative o provisionamento contínuo configurando como `--node-provisioning-mode` `Continuous` ao criar seu SageMaker HyperPod cluster. Para obter mais informações, consulte [Provisionamento contínuo para operações de cluster aprimoradas no Amazon EKS](sagemaker-hyperpod-scaling-eks.md).
+ O Health Monitoring Agent versão 1.0.742.0\_1.0.241.0 ou posterior está instalado. Necessário para operações e monitoramento de HyperPod clusters. O agente deve ser configurado antes da habilitação do ajuste de escala automático do Karpenter para garantir relatórios adequados de integridade dos clusters e gerenciamento do ciclo de vida dos nós. Para obter mais informações, consulte [Sistema de Monitoramento de Saúde](sagemaker-hyperpod-eks-resiliency-health-monitoring-agent.md).
+ Somente se o seu cluster Amazon do EKS tiver o Karpenter em execução, as versões `NodePool` e `NodeClaim` do Karpenter precisarão ser v1.
+ `NodeRecovery` definido como automático. Para obter mais informações, consulte [Recuperação automática de nós](sagemaker-hyperpod-eks-resiliency-node-recovery.md).