使用 Amazon EKS 協作 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon EKS 協作 SageMaker HyperPod 叢集

SageMaker HyperPod 是一項 SageMaker AI 受管服務,可在長時間執行且具彈性的運算叢集上啟用大規模訓練基礎模型,從而與 Amazon EKS 整合以協作 HyperPod 運算資源。您可以使用 Amazon EKS 叢集搭配 HyperPod 彈性功能,大規模持續數週或數月執行不間斷的訓練任務,這些功能會檢查各種硬體故障並自動復原故障的節點。

叢集管理員使用者的重要功能包括下列操作。

對於資料科學家使用者,HyperPod 中的 EKS 支援會啟用下列操作。

  • 在 HyperPod 叢集上執行用於訓練基礎模型的容器化工作負載

  • 利用 HyperPod 與 EKS 之間的整合,在 EKS 叢集上執行推論

  • 利用任務自動繼續功能進行 Kubeflow PyTorch 訓練 (PyTorchJob)

注意

Amazon EKS 透過 Amazon EKS 控制平面,在 SageMaker HyperPod 上啟用任務和基礎設施的使用者受管協同運作。確保使用者透過 Kubernetes API Server 端點存取叢集時遵循最低權限原則,並確保 HyperPod 叢集的網路輸出受到保護。

若要進一步了解如何保護對 Amazon EKS API 伺服器的存取,請參閱控制叢集 API 伺服器端點的網路存取

若要進一步了解如何在 HyperPod 上保護網路存取,請參閱使用自訂 Amazon VPC 設定 SageMaker HyperPod

HyperPod 中 Amazon EKS 支援的高階架構涉及 EKS 叢集 (控制平面) 與 VPC 內 HyperPod 叢集 (工作節點) 之間的一對一對應,如下圖所示。

EKS and HyperPod VPC architecture with control plane, 叢集 nodes, and AWS 服務.