本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon EKS 協作 SageMaker HyperPod 叢集
SageMaker HyperPod 是一項 SageMaker AI 受管服務,可在長時間執行且具彈性的運算叢集上啟用大規模訓練基礎模型,從而與 Amazon EKS 整合以協作 HyperPod 運算資源。您可以使用 Amazon EKS 叢集搭配 HyperPod 彈性功能,大規模持續數週或數月執行不間斷的訓練任務,這些功能會檢查各種硬體故障並自動復原故障的節點。
叢集管理員使用者的重要功能包括下列操作。
-
佈建具彈性的 HyperPod 叢集並將其連接到 EKS 控制平面
-
啟用動態容量管理,例如新增更多節點、更新軟體和刪除叢集
-
啟用透過
kubectl或 SSM/SSH 直接存取叢集執行個體 -
提供彈性功能,包括基本運作狀態檢查、深度運作狀態檢查、運作狀態監控代理程式,以及支援 PyTorch 任務自動繼續
-
與 Amazon CloudWatch Container Insights、Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 等可觀測性工具整合
對於資料科學家使用者,HyperPod 中的 EKS 支援會啟用下列操作。
-
在 HyperPod 叢集上執行用於訓練基礎模型的容器化工作負載
-
利用 HyperPod 與 EKS 之間的整合,在 EKS 叢集上執行推論
-
利用任務自動繼續功能進行 Kubeflow PyTorch 訓練 (PyTorchJob)
注意
Amazon EKS 透過 Amazon EKS 控制平面,在 SageMaker HyperPod 上啟用任務和基礎設施的使用者受管協同運作。確保使用者透過 Kubernetes API Server 端點存取叢集時遵循最低權限原則,並確保 HyperPod 叢集的網路輸出受到保護。
若要進一步了解如何保護對 Amazon EKS API 伺服器的存取,請參閱控制叢集 API 伺服器端點的網路存取。
若要進一步了解如何在 HyperPod 上保護網路存取,請參閱使用自訂 Amazon VPC 設定 SageMaker HyperPod。
HyperPod 中 Amazon EKS 支援的高階架構涉及 EKS 叢集 (控制平面) 與 VPC 內 HyperPod 叢集 (工作節點) 之間的一對一對應,如下圖所示。