Escalado automático en EKS SageMaker HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Escalado automático en EKS SageMaker HyperPod

Amazon SageMaker HyperPod proporciona una solución gestionada de escalado automático de nodos basada en Karpenter para clústeres creados con la orquestación de EKS. Karpenter es un administrador del ciclo de vida de los nodos de Kubernetes de código abierto creado por Kubernetes que optimiza el escalado de los clústeres y la rentabilidad. AWS A diferencia de las implementaciones autogestionadas de Karpenter, la implementación gestionada elimina SageMaker HyperPod la sobrecarga operativa que supone la instalación, la configuración y el mantenimiento de los controladores de Karpenter, a la vez que proporciona resiliencia y tolerancia a fallos integradas. Esta solución gestionada de escalado automático se basa en las capacidades de aprovisionamiento continuo HyperPod de las que dispone y le permite escalar de forma eficiente los recursos de cómputo para las cargas de trabajo de formación e inferencia mediante la gestión y la recuperación automáticas de los fallos.

Solo paga por lo que utiliza. Usted es responsable de pagar todas las instancias informáticas que se aprovisionan automáticamente mediante el escalado automático de acuerdo con los precios estándar. SageMaker HyperPod Para obtener información detallada sobre los precios, consulta Amazon SageMaker AI.

Al habilitar el escalado automático basado en Karpenter con HyperPod, tiene acceso a:

  • Ciclo de vida gestionado por el servicio: HyperPod gestiona la instalación, las actualizaciones y el mantenimiento de Karpenter, lo que elimina la sobrecarga operativa.

  • Aprovisionamiento justo a tiempo: Karpenter observará los pods pendientes y aprovisionará la computación necesaria para las cargas de trabajo del grupo bajo demanda.

  • Escala a cero: reduzca verticalmente a cero nodos sin mantener una infraestructura de controladores dedicada.

  • Selección de nodos en función de la carga de trabajo: Karpenter elige los tipos de instancias óptimos en función de los requisitos de los pods, las zonas de disponibilidad y los precios para minimizar los costos.

  • Consolidación automática de nodos: Karpenter evalúa periódicamente el clúster en busca de oportunidades de optimización y cambia las cargas de trabajo para eliminar los nodos infrautilizados.

  • Resiliencia integrada: aprovecha los mecanismos integrados HyperPod de tolerancia a fallos y recuperación de nodos.

En los siguientes temas se explica cómo habilitar el HyperPod escalado automático con Karpenter.

Requisitos previos

  • El aprovisionamiento continuo está habilitado en su clúster. HyperPod Habilite el aprovisionamiento continuo configurándolo --node-provisioning-mode Continuous al crear el clúster SageMaker HyperPod . Para obtener más información, consulte Aprovisionamiento continuo para mejorar las operaciones del clúster en Amazon EKS.

  • Se ha instalado la versión 1.0.742.0_1.0.241.0 o superior del Health Monitoring Agent. Necesario para las operaciones y la supervisión del HyperPod clúster. Debe configurarse antes de activar el escalado automático de Karpenter para garantizar la correcta gestión del ciclo de vida de los nodos y la elaboración de informes sobre el estado del clúster. Para obtener más información, consulte Sistema de Monitoreo de Salud.

  • Solo si su clúster de Amazon EKS ejecuta Karpenter, tanto el Karpenter NodePool como las versiones de NodeClaim deben ser v1.

  • NodeRecovery configurado en automático. Para obtener más información, consulte Recuperación automática de nodos.