

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon EKS 協作的 SageMaker HyperPod 叢集上執行任務
<a name="sagemaker-hyperpod-eks-run-jobs"></a>

下列主題提供存取運算節點，以及在與 Amazon EKS 協作的佈建 SageMaker HyperPod 叢集上執行 ML 工作負載的程序和範例。根據您在 HyperPod 叢集上設定環境的方式，在 HyperPod 叢集上執行 ML 工作負載的方法有很多種。

**注意**  
透過 SageMaker HyperPod CLI 或 kubectl 執行任務時，HyperPod 可以跨命名空間 (團隊) 追蹤運算使用率 (GPU/CPU 時數)。這些指標驅動用量報告，其中提供：  
配置資源耗用量與借用資源耗用量的可見性
用於稽核的團隊資源使用率 (最多 180 天)
符合任務治理政策的成本歸因
若要使用用量報告，您必須安裝用量報告基礎設施。強烈建議設定[任務治理](sagemaker-hyperpod-eks-operate-console-ui-governance.md)以強制執行運算配額，並啟用精細的成本歸因。  
如需設定和產生用量報告的詳細資訊，請參閱[在 HyperPod 中報告運算用量](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html)。

**提示**  
如需有關如何設定和使用與 Amazon EKS 協作的 SageMaker HyperPod 叢集的實作體驗和指引，我們建議您參加 [SageMaker HyperPod 中的 Amazon EKS 支援](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e)工作坊。

資料科學家使用者可以使用已設定為 SageMaker HyperPod 叢集協調器的 EKS 叢集來訓練基礎模型。科學家利用 [SageMaker HyperPod CLI](https://github.com/aws/sagemaker-hyperpod-cli) 和原生 `kubectl` 命令，來尋找可用的 SageMaker HyperPod 叢集、提交訓練任務 (Pod)，以及管理其工作負載。SageMaker HyperPod CLI 使用訓練任務結構描述檔案啟用任務提交，並提供任務列示、描述、取消和執行的功能。科學家可以根據 HyperPod 管理的運算配額使用 [Kubeflow Training Operator](https://www.kubeflow.org/docs/components/training/overview/)，也可以使用 [SageMaker AI 管理的 MLflow](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow.html) 來管理 ML 實驗和訓練執行。

**Topics**
+ [安裝 SageMaker HyperPod CLI](sagemaker-hyperpod-eks-run-jobs-access-nodes.md)
+ [SageMaker HyperPod CLI 命令](sagemaker-hyperpod-eks-hyperpod-cli-reference.md)
+ [使用 SageMaker HyperPod CLI 執行任務](sagemaker-hyperpod-eks-run-jobs-hyperpod-cli.md)
+ [使用 `kubectl` 執行任務](sagemaker-hyperpod-eks-run-jobs-kubectl.md)