本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 EKS 上 SageMaker HyperPod 自动缩放
Amazon SageMaker HyperPod 为使用 EKS 编排创建的集群提供了基于 Karpenter 的托管节点自动扩展解决方案。Karpenter
您仅需按实际用量付费。您负责根据标准 SageMaker HyperPod定价为通过自动扩缩自动配置的所有计算实例付费。有关详细定价信息,请参阅 Amazon SageMaker AI
通过启用基于 Karpenter 的自动缩放 HyperPod,您可以访问:
-
服务管理生命周期- HyperPod 处理 Karpenter 的安装、更新和维护,从而消除运营开销。
-
即时预调配 – Karpenter 将观察待处理的容器组(pod),并从按需池中为工作负载预调配所需的计算。
-
扩展为零 – 无需维护专用的控制器基础设施,即可缩减至零节点。
-
工作负载感知型节点选择 – Karpenter 会根据容器组(pod)要求、可用区和定价选择最佳实例类型,以最大限度地降低成本。
-
自动节点整合 – Karpenter 会定期评估集群以寻找优化机会,并通过迁移工作负载来移除未充分利用的节点。
-
集成弹性-利用内置 HyperPod的容错和节点恢复机制。
以下主题说明了如何使用 Karpent HyperPod er 启用自动缩放。
主题
先决条件
-
在您的 HyperPod 集群上启用了持续配置。通过在创建 SageMaker HyperPod 集群
Continuous时--node-provisioning-mode将设置为来启用持续预配。有关更多信息,请参阅 Amazon EKS 上用于增强集群操作的持续预调配功能。 -
已安装运行状况监控代理版本 1.0.742.0_1.0.241.0 或更高版本。 HyperPod 群集操作和监控所必需的。在启用 Karpenter 自动扩缩之前,必须先配置此代理,以确保实现正确的集群运行状况报告和节点生命周期管理。有关更多信息,请参阅 Health 监控系统。
-
仅当您的 Amazon EKS 集群上运行了 Karpenter 时,Karpenter
NodePool和NodeClaim版本需为 v1。 -
NodeRecovery设置为自动。有关更多信息,请参阅 自动节点恢复。