在 Amazon EKS 協調的 SageMaker HyperPod 叢集上執行任務 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon EKS 協調的 SageMaker HyperPod 叢集上執行任務

下列主題提供存取運算節點,以及在與 Amazon EKS 協調的佈建 SageMaker HyperPod 叢集上執行 ML 工作負載的程序和範例。根據您在 HyperPod 叢集上設定環境的方式,在 HyperPod 叢集上執行 ML 工作負載的方法有很多種。

注意

透過 SageMaker HyperPod CLI 或 kubectl 執行任務時,HyperPod 可以跨命名空間 (團隊) 追蹤運算使用率 (GPU/CPU 時數)。這些指標電力用量報告提供:

  • 配置資源消耗量與借用資源消耗量的可見性

  • 用於稽核的團隊資源使用率 (最多 180 天)

  • 符合任務控管政策的成本歸因

若要使用用量報告,您必須安裝用量報告基礎設施。我們強烈建議您設定任務控管,以強制執行運算配額並啟用精細的成本歸因。

如需設定和產生用量報告的詳細資訊,請參閱在 HyperPod 中報告運算用量

提示

如需如何設定和使用與 Amazon EKS 協調的 SageMaker HyperPod 叢集的實作體驗和指導,建議您在 SageMaker HyperPod 中參加此 Amazon EKS 支援研討會。

資料科學家使用者可以使用 EKS 叢集集做為 SageMaker HyperPod 叢集的協調器來訓練基礎模型。科學家利用 SageMaker HyperPod CLI 和原生kubectl命令來尋找可用的 SageMaker HyperPod 叢集、提交訓練任務 (Pod),以及管理其工作負載。SageMaker HyperPod CLI 使用訓練任務結構描述檔案啟用任務提交,並提供任務清單、描述、取消和執行的功能。科學家可根據 HyperPod 管理的運算配額使用 Kubeflow Training Operator,並使用 SageMaker AI 管理的 MLflow 來管理 ML 實驗和訓練執行。