使用 Amazon EKS 協調 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon EKS 協調 SageMaker HyperPod 叢集

SageMaker HyperPod 是一項 SageMaker AI 受管服務,可在長時間執行且具彈性的運算叢集上大規模訓練基礎模型,並與 Amazon EKS 整合以協調 HyperPod 運算資源。您可以使用具有 HyperPod 彈性功能的 Amazon EKS 叢集,大規模執行持續數週或數月的訓練任務,以檢查各種硬體故障並自動復原故障的節點。

叢集管理員使用者的主要功能包括下列項目。

對於資料科學家使用者,HyperPod 中的 EKS 支援會啟用下列項目。

  • 在 HyperPod 叢集上執行用於訓練基礎模型的容器化工作負載

  • 在 EKS 叢集上執行推論,利用 HyperPod 和 EKS 之間的整合

  • 利用任務自動恢復功能進行 Kubeflow PyTorch 訓練 (PyTorchJob)

注意

Amazon EKS 透過 Amazon EKS 控制平面,在 SageMaker HyperPod 上啟用任務和基礎設施的使用者受管協調。確保使用者透過 Kubernetes API Server 端點存取叢集,遵循最低權限原則,且 HyperPod 叢集的網路輸出受到保護。

若要進一步了解如何保護 Amazon EKS API 伺服器的存取權,請參閱控制叢集 API 伺服器端點的網路存取權

若要進一步了解如何在 HyperPod 上保護網路存取,請參閱 使用自訂 Amazon VPC 設定 SageMaker HyperPod

HyperPod 中 Amazon EKS 支援的高階架構涉及 VPC 內的 EKS 叢集 (控制平面) 與 HyperPod 叢集 (工作者節點) 之間的一對一映射,如下圖所示。

EKS and HyperPod VPC architecture with control plane, 叢集 nodes, and AWS 服務.