Autoscaling sur EKS SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Autoscaling sur EKS SageMaker HyperPod

Amazon SageMaker HyperPod fournit une solution gérée de mise à l'échelle automatique des nœuds basée sur Karpenter pour les clusters créés avec l'orchestration EKS. Karpenter est un gestionnaire de cycle de vie des nœuds Kubernetes open source conçu pour optimiser la mise à l'échelle des AWS clusters et la rentabilité. Contrairement aux déploiements Karpenter autogérés, SageMaker HyperPod l'implémentation gérée élimine les frais opérationnels liés à l'installation, à la configuration et à la maintenance des contrôleurs Karpenter tout en offrant une résilience et une tolérance aux pannes intégrées. Cette solution de mise à l'échelle automatique gérée repose sur les capacités HyperPod de provisionnement continu et vous permet de dimensionner efficacement les ressources informatiques pour les charges de travail de formation et d'inférence grâce à la gestion automatique des défaillances et à la restauration.

Vous ne payez que ce que vous utilisez. Vous êtes responsable du paiement de toutes les instances de calcul qui sont automatiquement provisionnées par le biais de l'autoscaling conformément à la tarification standard SageMaker HyperPod. Pour obtenir des informations détaillées sur les prix, consultez Amazon SageMaker AI.

En activant la mise à l'échelle automatique basée sur Karpenter avec HyperPod, vous avez accès à :

  • Cycle de vie géré par les services : HyperPod gère l'installation, les mises à jour et la maintenance de Karpenter, éliminant ainsi les frais opérationnels.

  • Provisionnement juste à temps : Karpenter observera vos pods en attente et provisionnera le calcul requis pour vos charges de travail à partir d’un pool à la demande.

  • Mise à échelle à zéro : réduisez verticalement les nœuds jusqu’à zéro sans conserver l’infrastructure de contrôleur dédiée.

  • Sélection de nœuds adaptée à la charge de travail : Karpenter choisit les types d’instances optimaux en fonction des exigences de pod, des zones de disponibilité et de la tarification pour minimiser les coûts.

  • Consolidation automatique des nœuds : Karpenter évalue régulièrement le cluster à la recherche d’opportunités d’optimisation, en déplaçant les charges de travail pour éliminer les nœuds sous-utilisés.

  • Résilience intégrée : tire parti des mécanismes intégrés HyperPod de tolérance aux pannes et de restauration des nœuds.

Les rubriques suivantes expliquent comment activer l' HyperPod autoscaling avec Karpenter.

Conditions préalables

  • Le provisionnement continu est activé sur votre HyperPod cluster. Activez le provisionnement continu en le configurant Continuous lors --node-provisioning-mode de la création de votre SageMaker HyperPod cluster. Pour de plus amples informations, veuillez consulter Provisionnement continu pour des opérations de cluster améliorées sur Amazon EKS.

  • La version 1.0.742.0_1.0.241.0 ou supérieure de l’agent de surveillance de l’état doit être installée. Nécessaire pour les opérations et la surveillance du HyperPod cluster. L’agent doit être configuré avant d’activer la mise à l’échelle automatique de Karpenter afin de garantir des rapports appropriés sur l’état du cluster et la gestion correcte du cycle de vie des nœuds. Pour de plus amples informations, veuillez consulter Système de surveillance de la santé.

  • Seulement si votre cluster Amazon EKS exécute Karpenter, les versions NodePool et NodeClaim de Karpenter doivent être v1.

  • NodeRecovery doit être défini sur automatique. Pour de plus amples informations, veuillez consulter Récupération automatique des nœuds.