使用 HyperPod CLI 和 SDK 訓練和部署模型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 HyperPod CLI 和 SDK 訓練和部署模型

Amazon SageMaker HyperPod 可協助您大規模訓練和部署機器學習模型。 AWS HyperPod CLI 是統一的命令列界面,可簡化其上的機器學習 (ML) 工作流程 AWS。它可抽象化基礎設施複雜性,並提供簡化的 ML 訓練任務提交、監控和管理體驗。CLI 專為希望專注於模型開發而非基礎設施管理的資料科學家和機器學習工程師而設計。本主題會逐步解說三個主要案例:訓練 PyTorch 模型、使用訓練成品部署自訂模型,以及部署 JumpStart 模型。此簡潔教學課程專為初次使用的使用者而設計,可確保您可以使用 HyperPod CLI 或 SDK 輕鬆設定、訓練和部署模型。訓練和推論之間的交握程序可協助您有效管理模型成品。

先決條件

開始使用 Amazon SageMaker HyperPod 之前,請確定您已:

  • 可存取 Amazon SageMaker HyperPod AWS 的帳戶

  • 已安裝 Python 3.9、3.10 或 3.11

  • AWS CLI 已設定適當的登入資料。

安裝 HyperPod CLI 和 SDK

安裝必要的套件以存取 CLI 和 SDK:

pip install sagemaker-hyperpod

此命令會設定與 HyperPod 叢集互動所需的工具。

設定您的叢集內容

HyperPod 可在針對機器學習最佳化的叢集上運作。首先列出可用的叢集,為您的任務選擇一個叢集。

  1. 列出所有可用的叢集:

    hyp list-cluster
  2. 選擇並設定您的作用中叢集:

    hyp set-cluster-context your-eks-cluster-name
  3. 驗證組態:

    hyp get-cluster-context
注意

所有後續命令都以您設定為內容的叢集為目標。

選擇您的案例

如需每個案例的詳細說明,請按一下下列主題: