本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 HyperPod CLI 和 SDK 訓練和部署模型
Amazon SageMaker HyperPod 可協助您大規模訓練和部署機器學習模型。AWSHyperPod CLI 是統一的命令列界面,可簡化其上的機器學習 (ML) 工作流程AWS。它可抽象化基礎設施複雜性,並為提交、監控和管理 ML 訓練任務提供簡化的體驗。CLI 專為希望專注於模型開發而非基礎設施管理的資料科學家和 ML 工程師而設計。本主題會逐步解說三個關鍵案例:訓練 PyTorch 模型、使用訓練成品部署自訂模型,以及部署 JumpStart 模型。此簡潔教學課程專為初次使用者而設計,確保您可以使用 HyperPod CLI 或 SDK 輕鬆設定、訓練和部署模型。訓練與推論之間的交握程序可協助您有效管理模型成品。
先決條件
開始使用 Amazon SageMaker HyperPod 之前,請確定您具有下列先決條件:
可存取 Amazon SageMaker HyperPod AWS的帳戶
已安裝 Python 3.9、3.10 或 3.11
AWS CLI已設定適當的登入資料。
安裝 HyperPod CLI 和 SDK
安裝必要的套件以存取 CLI 和 SDK:
pip install sagemaker-hyperpod
此命令會設定與 HyperPod 叢集互動所需的工具。
設定您的叢集內容
HyperPod 可在針對機器學習最佳化的叢集上操作。首先列出可用的叢集,為您的任務選取一個叢集。
-
列出所有可用的叢集
hyp list-cluster -
選擇並設定您的作用中叢集:
hyp set-cluster-context your-eks-cluster-name -
驗證組態:
hyp get-cluster-context
注意
所有後續命令都以您設定為內容的叢集為目標。
選擇您的案例
如需每個案例的詳細說明,請按一下下列主題: