本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 SageMaker HyperPod EKS 上自動擴展
Amazon SageMaker HyperPod 為使用 EKS 協同運作建立的叢集提供受管 Karpenter 型節點自動擴展解決方案。Karpenter
您僅需按實際用量付費。您有責任根據標準 SageMaker HyperPod 定價支付透過自動擴展自動佈建的所有運算執行個體的費用。如需詳細的定價資訊,請參閱 Amazon SageMaker AI
透過使用 HyperPod 啟用 Karpenter 型自動擴展,您可以存取:
-
服務受管生命週期 - HyperPod 會處理 Karpenter 安裝、更新和維護,從而消除操作負荷。
-
即時佈建 - Karpenter 將觀察您的待定 Pod,並從隨需集區中為您的工作負載佈建所需的運算。
-
擴展到零 - 縮減到零個節點,而無需維護專用控制器基礎設施。
-
工作負載感知節點選擇 - Karpenter 根據 Pod 需求、可用區域和定價選擇最佳執行個體類型,以將成本降至最低。
-
自動節點整合 - Karpenter 會定期評估叢集的最佳化機會,從而轉移工作負載以消除未充分利用的節點。
-
整合式彈性 - 利用 HyperPod 的內建容錯和節點復原機制。
下列主題說明如何啟用 HyperPod Autoscaling with Karpenter。
主題
先決條件
-
在您的 HyperPod 叢集上啟用持續佈建。在建立 SageMaker HyperPod 叢集時,將
--node-provisioning-mode設定為Continuous以啟用持續佈建。如需詳細資訊,請參閱Amazon EKS 上增強型叢集操作的持續佈建。 -
已安裝運作狀態監控代理程式版本 1.0.742.0_1.0.241.0 或更新版本。HyperPod 叢集操作和監控時需要。必須先設定代理程式,再啟用 Karpenter 自動擴展,以確保適當的叢集運作狀態報告和節點生命週期管理。如需詳細資訊,請參閱運作狀態監控系統。
-
只有當您的 Amazon EKS 叢集上執行 Karpenter 時,Karpenter
NodePool和NodeClaim版本才需要為 v1。 -
NodeRecovery設定為自動。如需詳細資訊,請參閱自動節點復原。