使用 HyperPod CLI 和 SDK 训练和部署模型

Amazon SageMaker HyperPod 可帮助您大规模训练和部署机器学习模型。 AWS HyperPod CLI 是一个统一的命令行界面，可简化机器学习 (ML) 工作流程。 AWS它能抽象化基础设施的复杂性，为机器学习训练作业的提交、监控和管理提供简化的体验。CLI 专为数据科学家和机器学习工程师设计，他们更希望专注于模型开发，而非基础设施管理。本主题将带您了解三个关键场景：训练 PyTorch 模型、使用经过训练的构件部署自定义模型以及部署 JumpStart 模型。本简洁的教程专为首次使用的用户设计，可确保您可以使用 CL HyperPod I 或 SDK 轻松设置、训练和部署模型。训练和推理之间的握手过程有助于高效地管理模型构件。

先决条件

在开始使用 Amazon 之前 SageMaker HyperPod，请确保您已具备以下条件：

有权访问 Amazon 的 AWS 账户 SageMaker HyperPod
已安装 Python 3.9、3.10 或 3.11
AWS CLI 使用适当的凭据进行配置。

安装 HyperPod CLI 和 SDK

安装所需的软件包以访问 CLI 和 SDK：


pip install sagemaker-hyperpod

此命令设置了与 HyperPod 集群交互所需的工具。

配置集群上下文

HyperPod 在针对机器学习进行了优化的集群上运行。首先列出可用的集群，以便为您的任务选择一个集群。

列出所有可用的集群：
```
hyp list-cluster
```

选择并设置活动集群：


hyp set-cluster-context your-eks-cluster-name

验证配置：
```
hyp get-cluster-context
```

注意

后续所有命令都将以您已设置为上下文的集群为目标。

选择您的场景

有关每种场景的详细说明，请单击以下主题：

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

远程访问 SageMaker 空间

训练 PyTorch 模型