

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 SageMaker HyperPod EKS 上自動擴展
<a name="sagemaker-hyperpod-eks-autoscaling"></a>

Amazon SageMaker HyperPod 為使用 EKS 協同運作建立的叢集提供受管 Karpenter 型節點自動擴展解決方案。[Karpenter](https://karpenter.sh/) 是由 建置的開放原始碼 Kubernetes 節點生命週期管理器 AWS ，可最佳化叢集擴展和成本效益。與自我管理的 Karpenter 部署不同，SageMaker HyperPod 的受管實作會消除安裝、設定和維護 Karpenter 控制器的負荷，同時提供整合式彈性和容錯。此受管自動擴展解決方案建置在 HyperPod 的[持續佈建](sagemaker-hyperpod-scaling-eks.md)功能之上，可讓您透過自動故障處理和復原，有效率地擴展訓練和推論工作負載的運算資源。

您僅需按實際用量付費。您有責任根據標準 SageMaker HyperPod 定價支付透過自動擴展自動佈建的所有運算執行個體的費用。如需詳細的定價資訊，請參閱 [Amazon SageMaker AI](https://aws.amazon.com/sagemaker/ai/pricing/)。

透過使用 HyperPod 啟用 Karpenter 型自動擴展，您可以存取：
+ **服務受管生命週期** - HyperPod 會處理 Karpenter 安裝、更新和維護，從而消除操作負荷。
+ **即時佈建** - Karpenter 將觀察您的待定 Pod，並從隨需集區中為您的工作負載佈建所需的運算。
+ **擴展到零** - 縮減到零個節點，而無需維護專用控制器基礎設施。
+ **工作負載感知節點選擇** - Karpenter 根據 Pod 需求、可用區域和定價選擇最佳執行個體類型，以將成本降至最低。
+ **自動節點整合** - Karpenter 會定期評估叢集的最佳化機會，從而轉移工作負載以消除未充分利用的節點。
+ **整合式彈性** - 利用 HyperPod 的內建容錯和節點復原機制。

下列主題說明如何啟用 HyperPod Autoscaling with Karpenter。

**Topics**
+ [先決條件](#sagemaker-hyperpod-eks-autoscaling-prereqs)
+ [建立 HyperPod Autoscaling with Karpenter 的 IAM 角色](sagemaker-hyperpod-eks-autoscaling-iam.md)
+ [使用 Karpenter 自動擴展來建立和設定 HyperPod 叢集](sagemaker-hyperpod-eks-autoscaling-cluster.md)
+ [建立 NodeClass](sagemaker-hyperpod-eks-autoscaling-nodeclass.md)
+ [建立 NodePool](sagemaker-hyperpod-eks-autoscaling-nodepool.md)
+ [部署工作負載](sagemaker-hyperpod-eks-autoscaling-workload.md)

## 先決條件
<a name="sagemaker-hyperpod-eks-autoscaling-prereqs"></a>
+ 在您的 HyperPod 叢集上啟用持續佈建。在建立 SageMaker HyperPod 叢集時，將 `--node-provisioning-mode` 設定為 `Continuous` 以啟用持續佈建。如需詳細資訊，請參閱[Amazon EKS 上增強型叢集操作的持續佈建](sagemaker-hyperpod-scaling-eks.md)。
+ 已安裝運作狀態監控代理程式版本 1.0.742.0\$11.0.241.0 或更新版本。HyperPod 叢集操作和監控時需要。必須先設定代理程式，再啟用 Karpenter 自動擴展，以確保適當的叢集運作狀態報告和節點生命週期管理。如需詳細資訊，請參閱[運作狀態監控系統](sagemaker-hyperpod-eks-resiliency-health-monitoring-agent.md)。
+ 只有當您的 Amazon EKS 叢集上執行 Karpenter 時，Karpenter `NodePool` 和 `NodeClaim` 版本才需要為 v1。
+ `NodeRecovery` 設定為自動。如需詳細資訊，請參閱[自動節點復原](sagemaker-hyperpod-eks-resiliency-node-recovery.md)。