使用 HyperPod CLI 和 SDK 训练和部署模型 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 HyperPod CLI 和 SDK 训练和部署模型

Amazon SageMaker HyperPod 可帮助您大规模训练和部署机器学习模型。 AWS HyperPod CLI 是一个统一的命令行界面,可简化机器学习 (ML) 工作流程。 AWS它抽象了基础架构的复杂性,为提交、监控和管理机器学习培训作业提供了简化的体验。CLI 专为希望专注于模型开发而非基础设施管理的数据科学家和机器学习工程师而设计。本主题将带您了解三个关键场景:训练 PyTorch 模型、使用经过训练的构件部署自定义模型以及部署 JumpStart 模型。本简洁的教程专为首次使用的用户设计,可确保您可以使用 CL HyperPod I 或 SDK 轻松设置、训练和部署模型。训练和推理之间的握手过程可帮助您有效地管理模型工件。

先决条件

在开始使用 Amazon 之前 SageMaker HyperPod,请确保您已具备以下条件:

  • 有权访问 Amazon 的 AWS 账户 SageMaker HyperPod

  • 安装了 Python 3.9、3.10 或 3.11

  • AWS CLI 使用适当的凭据进行配置。

安装 HyperPod CLI 和 SDK

安装所需的软件包以访问 CLI 和 SDK:

pip install sagemaker-hyperpod

此命令设置了与 HyperPod 集群交互所需的工具。

配置您的集群上下文

HyperPod 在针对机器学习进行了优化的集群上运行。首先列出可用集群,为您的任务选择一个集群。

  1. 列出所有可用集群:

    hyp list-cluster
  2. 选择并设置您的活动集群:

    hyp set-cluster-context your-eks-cluster-name
  3. 验证配置:

    hyp get-cluster-context
注意

所有后续命令都以您设置为上下文的集群为目标。

选择你的场景

有关每种场景的详细说明,请单击以下主题: