Escalonamento automático no EKS SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Escalonamento automático no EKS SageMaker HyperPod

SageMaker HyperPod A Amazon fornece uma solução gerenciada de escalonamento automático de nós baseada em Karpenter para clusters criados com a orquestração EKS. O Karpenter é um gerenciador de ciclo de vida de nós Kubernetes de código aberto criado por AWS ele que otimiza a escalabilidade do cluster e a eficiência de custos. Ao contrário das implantações autogerenciadas SageMaker HyperPod do Karpenter, a implementação gerenciada elimina a sobrecarga operacional de instalação, configuração e manutenção dos controladores Karpenter, ao mesmo tempo em que fornece resiliência integrada e tolerância a falhas. Essa solução gerenciada de escalonamento automático se baseia nos recursos de provisionamento contínuo HyperPod da empresa e permite que você escale com eficiência os recursos de computação para treinamento e inferência de cargas de trabalho com tratamento e recuperação automáticos de falhas.

Você paga somente pelo que usar. Você é responsável por pagar por todas as instâncias de computação que são provisionadas automaticamente por meio do escalonamento automático de acordo com o preço padrão. SageMaker HyperPod Para obter informações detalhadas sobre preços, consulte Amazon SageMaker AI.

Ao habilitar o escalonamento automático baseado em Karpenter com HyperPod, você tem acesso a:

  • Ciclo de vida gerenciado do serviço - HyperPod gerencia a instalação, as atualizações e a manutenção do Karpenter, eliminando a sobrecarga operacional.

  • Provisionamento just-in-time: o Karpenter observará os pods pendentes e provisionará a computação necessária para as workloads a partir usando um grupo sob demanda.

  • Ajuste de escala para zero: reduza a escala vertical dos nós para zero sem precisar manter uma infraestrutura de controlador dedicada.

  • Seleção de nós com reconhecimento de workload: o Karpenter escolhe os tipos de instância ideais com base nos requisitos do pod, nas zonas de disponibilidade e nos preços para minimizar os custos.

  • Consolidação automática de nós: o Karpenter avalia regularmente o cluster em busca de oportunidades de otimização, mudando as workloads para eliminar nós subutilizados.

  • Resiliência integrada - aproveita os mecanismos integrados HyperPod de tolerância a falhas e recuperação de nós.

Os tópicos a seguir explicam como habilitar o HyperPod escalonamento automático com o Karpenter.

Pré-requisitos

  • Provisionamento contínuo habilitado em seu HyperPod cluster. Ative o provisionamento contínuo configurando como --node-provisioning-mode Continuous ao criar seu SageMaker HyperPod cluster. Para obter mais informações, consulte Provisionamento contínuo para operações de cluster aprimoradas no Amazon EKS.

  • O Health Monitoring Agent versão 1.0.742.0_1.0.241.0 ou posterior está instalado. Necessário para operações e monitoramento de HyperPod clusters. O agente deve ser configurado antes da habilitação do ajuste de escala automático do Karpenter para garantir relatórios adequados de integridade dos clusters e gerenciamento do ciclo de vida dos nós. Para obter mais informações, consulte Sistema de monitoramento de saúde.

  • Somente se o seu cluster Amazon do EKS tiver o Karpenter em execução, as versões NodePool e NodeClaim do Karpenter precisarão ser v1.

  • NodeRecovery definido como automático. Para obter mais informações, consulte Recuperação automática de nós.