As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Escalonamento automático no EKS SageMaker HyperPod
SageMaker HyperPod A Amazon fornece uma solução gerenciada de escalonamento automático de nós baseada em Karpenter para clusters criados com a orquestração EKS. O Karpenter
Você paga somente pelo que usar. Você é responsável por pagar por todas as instâncias de computação que são provisionadas automaticamente por meio do escalonamento automático de acordo com o preço padrão. SageMaker HyperPod Para obter informações detalhadas sobre preços, consulte Amazon SageMaker AI
Ao habilitar o escalonamento automático baseado em Karpenter com HyperPod, você tem acesso a:
-
Ciclo de vida gerenciado do serviço - HyperPod gerencia a instalação, as atualizações e a manutenção do Karpenter, eliminando a sobrecarga operacional.
-
Provisionamento just-in-time: o Karpenter observará os pods pendentes e provisionará a computação necessária para as workloads a partir usando um grupo sob demanda.
-
Ajuste de escala para zero: reduza a escala vertical dos nós para zero sem precisar manter uma infraestrutura de controlador dedicada.
-
Seleção de nós com reconhecimento de workload: o Karpenter escolhe os tipos de instância ideais com base nos requisitos do pod, nas zonas de disponibilidade e nos preços para minimizar os custos.
-
Consolidação automática de nós: o Karpenter avalia regularmente o cluster em busca de oportunidades de otimização, mudando as workloads para eliminar nós subutilizados.
-
Resiliência integrada - aproveita os mecanismos integrados HyperPod de tolerância a falhas e recuperação de nós.
Os tópicos a seguir explicam como habilitar o HyperPod escalonamento automático com o Karpenter.
Tópicos
Pré-requisitos
-
Provisionamento contínuo habilitado em seu HyperPod cluster. Ative o provisionamento contínuo configurando como
--node-provisioning-modeContinuousao criar seu SageMaker HyperPod cluster. Para obter mais informações, consulte Provisionamento contínuo para operações de cluster aprimoradas no Amazon EKS. -
O Health Monitoring Agent versão 1.0.742.0_1.0.241.0 ou posterior está instalado. Necessário para operações e monitoramento de HyperPod clusters. O agente deve ser configurado antes da habilitação do ajuste de escala automático do Karpenter para garantir relatórios adequados de integridade dos clusters e gerenciamento do ciclo de vida dos nós. Para obter mais informações, consulte Sistema de monitoramento de saúde.
-
Somente se o seu cluster Amazon do EKS tiver o Karpenter em execução, as versões
NodePooleNodeClaimdo Karpenter precisarão ser v1. -
NodeRecoverydefinido como automático. Para obter mais informações, consulte Recuperação automática de nós.