在 EKS 上 SageMaker HyperPod 自动缩放 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 EKS 上 SageMaker HyperPod 自动缩放

Amazon SageMaker HyperPod 为使用 EKS 编排创建的集群提供了基于 Karpenter 的托管节点自动扩展解决方案。Karpenter 是一款开源的 Kubernetes 节点生命周期管理器,由AWS它构建,可优化集群扩展和成本效率。与自我管理的 Karpenter 部署不同, SageMaker HyperPod它的托管实施消除了安装、配置和维护 Karpenter 控制器的运营开销,同时提供了集成的弹性和容错能力。这种托管式自动扩展解决方案建立在持续配置功能 HyperPod之上,使您能够通过自动故障处理和恢复来高效扩展用于训练和推理工作负载的计算资源。

您仅需按实际用量付费。您负责根据标准 SageMaker HyperPod定价为通过自动扩缩自动配置的所有计算实例付费。有关详细定价信息,请参阅 Amazon SageMaker AI

通过启用基于 Karpenter 的自动缩放 HyperPod,您可以访问:

  • 服务管理生命周期- HyperPod 处理 Karpenter 的安装、更新和维护,从而消除运营开销。

  • 即时预调配 – Karpenter 将观察待处理的容器组(pod),并从按需池中为工作负载预调配所需的计算。

  • 扩展为零 – 无需维护专用的控制器基础设施,即可缩减至零节点。

  • 工作负载感知型节点选择 – Karpenter 会根据容器组(pod)要求、可用区和定价选择最佳实例类型,以最大限度地降低成本。

  • 自动节点整合 – Karpenter 会定期评估集群以寻找优化机会,并通过迁移工作负载来移除未充分利用的节点。

  • 集成弹性-利用内置 HyperPod的容错和节点恢复机制。

以下主题说明了如何使用 Karpent HyperPod er 启用自动缩放。

先决条件

  • 在您的 HyperPod 集群上启用了持续配置。通过在创建 SageMaker HyperPod 集群Continuous--node-provisioning-mode将设置为来启用持续预配。有关更多信息,请参阅 Amazon EKS 上用于增强集群操作的持续预调配功能

  • 已安装运行状况监控代理版本 1.0.742.0_1.0.241.0 或更高版本。 HyperPod 群集操作和监控所必需的。在启用 Karpenter 自动扩缩之前,必须先配置此代理,以确保实现正确的集群运行状况报告和节点生命周期管理。有关更多信息,请参阅 Health 监控系统

  • 仅当您的 Amazon EKS 集群上运行了 Karpenter 时,Karpenter NodePoolNodeClaim 版本需为 v1。

  • NodeRecovery 设置为自动。有关更多信息,请参阅 自动节点恢复