在 SageMaker HyperPod EKS 上自動擴展 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 SageMaker HyperPod EKS 上自動擴展

Amazon SageMaker HyperPod 為使用 EKS 協同運作建立的叢集提供受管 Karpenter 型節點自動擴展解決方案。Karpenter 是由 建置的開放原始碼 Kubernetes 節點生命週期管理工具,AWS可最佳化叢集擴展和成本效益。與自我管理的 Karpenter 部署不同,SageMaker HyperPod 的受管實作會消除安裝、設定和維護 Karpenter 控制器的負荷,同時提供整合式彈性和容錯。此受管自動擴展解決方案建置在 HyperPod 的持續佈建功能之上,可讓您透過自動故障處理和復原,有效率地擴展訓練和推論工作負載的運算資源。

您僅需按實際用量付費。您有責任根據標準 SageMaker HyperPod 定價支付透過自動擴展自動佈建的所有運算執行個體的費用。如需詳細的定價資訊,請參閱 Amazon SageMaker AI

透過使用 HyperPod 啟用 Karpenter 型自動擴展,您可以存取:

  • 服務受管生命週期 - HyperPod 會處理 Karpenter 安裝、更新和維護,從而消除操作負荷。

  • 即時佈建 - Karpenter 將觀察您的待定 Pod,並從隨需集區中為您的工作負載佈建所需的運算。

  • 擴展到零 - 縮減到零個節點,而無需維護專用控制器基礎設施。

  • 工作負載感知節點選擇 - Karpenter 根據 Pod 需求、可用區域和定價選擇最佳執行個體類型,以將成本降至最低。

  • 自動節點整合 - Karpenter 會定期評估叢集的最佳化機會,從而轉移工作負載以消除未充分利用的節點。

  • 整合式彈性 - 利用 HyperPod 的內建容錯和節點復原機制。

下列主題說明如何啟用 HyperPod Autoscaling with Karpenter。

先決條件

  • 在您的 HyperPod 叢集上啟用持續佈建。在建立 SageMaker HyperPod 叢集時,將 --node-provisioning-mode 設定為 Continuous 以啟用持續佈建。如需詳細資訊,請參閱Amazon EKS 上增強型叢集操作的持續佈建

  • 已安裝運作狀態監控代理程式版本 1.0.742.0_1.0.241.0 或更新版本。HyperPod 叢集操作和監控時需要。必須先設定代理程式,再啟用 Karpenter 自動擴展,以確保適當的叢集運作狀態報告和節點生命週期管理。如需詳細資訊,請參閱運作狀態監控系統

  • 只有當您的 Amazon EKS 叢集上執行 Karpenter 時,Karpenter NodePoolNodeClaim 版本才需要為 v1。

  • NodeRecovery 設定為自動。如需詳細資訊,請參閱自動節點復原