本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 HyperPod CLI 和 SDK 训练和部署模型
Amazon SageMaker HyperPod 可帮助您大规模训练和部署机器学习模型。AWSHyperPod CLI 是一个统一的命令行界面,可简化机器学习 (ML) 工作流程。AWS它能抽象化基础设施的复杂性,为机器学习训练作业的提交、监控和管理提供简化的体验。CLI 专为数据科学家和机器学习工程师设计,他们更希望专注于模型开发,而非基础设施管理。本主题将带您了解三个关键场景:训练 PyTorch 模型、使用经过训练的构件部署自定义模型以及部署 JumpStart 模型。本简洁的教程专为首次使用的用户设计,可确保您可以使用 CL HyperPod I 或 SDK 轻松设置、训练和部署模型。训练和推理之间的握手过程有助于高效地管理模型构件。
先决条件
在开始使用 Amazon 之前 SageMaker HyperPod,请确保您已具备以下条件:
有权访问 Amazon 的AWS账户 SageMaker HyperPod
已安装 Python 3.9、3.10 或 3.11
AWS CLI使用适当的凭据进行配置。
安装 HyperPod CLI 和 SDK
安装所需的软件包以访问 CLI 和 SDK:
pip install sagemaker-hyperpod
此命令设置了与 HyperPod 集群交互所需的工具。
配置集群上下文
HyperPod 在针对机器学习进行了优化的集群上运行。首先列出可用的集群,以便为您的任务选择一个集群。
-
列出所有可用的集群:
hyp list-cluster -
选择并设置活动集群:
hyp set-cluster-context your-eks-cluster-name -
验证配置:
hyp get-cluster-context
注意
后续所有命令都将以您已设置为上下文的集群为目标。
选择您的场景
有关每种场景的详细说明,请单击以下主题: