亚马逊上的 Amazon Nova 定制 SageMaker HyperPod

你可以使用 Amazon Nova 食谱自定义 Amazon Nova 模型，然后在亚马逊上进行训练 SageMaker HyperPod。配方是一个 YAML 配置文件，它向 SageMaker AI 提供有关如何运行模型自定义作业的详细信息。

亚马逊通过优化的 GPU 实例和 Amazon FSx for Lustre 存储 SageMaker HyperPod 提供高性能计算，通过与工具集成实现强大的监控 TensorBoard，用于迭代改进的灵活检查点管理，无缝部署到 Amazon Bedrock 进行推理，以及高效的可扩展多节点分布式训练，所有这些共同为组织提供安全、高性能和灵活的环境，以根据其特定业务需求量身定制 Nova 模型。

亚马逊上的 Amazon Nova 自定义将模型工件（包括模型检查点） SageMaker HyperPod 存储在服务托管的 Amazon S3 存储桶中。服务托管存储桶中的项目使用托管密钥进行 SageMaker加 AWS KMS 密。服务托管的 Amazon S3 存储桶目前不支持使用客户管理的 KMS 密钥进行数据加密。您可以利用此检查点位置进行评估作业或 Amazon Bedrock 推理。

标准定价适用于计算实例、Amazon S3 存储和 FSx Lustre。有关定价详情，请参阅SageMaker HyperPod 定价、Amazon S3 定价和 FSx Lustre 定价。

计算要求

下表汇总了 SageMaker HyperPod训练的计算要求。

预训练
模型	序列长度	Nodes	实例	Accelerator
Amazon Nova Micro	8192	8	ml.p5.48xlarge	GPU H100
Amazon Nova Lite	8192	16	ml.p5.48xlarge	GPU H100
Amazon Nova Pro	8192	24	ml.p5.48xlarge	GPU H100

直接偏好优化 (DPO)
模型	序列长度	节点数量	实例	Accelerator
直接偏好优化（完整）	32,768	2、4 或 6	ml.p5.48xlarge	GPU H100
直接偏好优化 (LoRa)	32,768	2、4 或 6	ml.p5.48xlarge	GPU H100

微调
模型	序列长度	节点数量	实例	Accelerator
监督微调 (LoRa)	65,536	2	ml.p5.48xlarge	GPU H100
监督微调（完整）	65,536	2	ml.p5.48xlarge	GPU H100
监督微调 (LoRa)	32,768	4	ml.p5.48xlarge	GPU H100
监督微调（完整）	65,536	4	ml.p5.48xlarge	GPU H100
监督微调 (LoRa)	65,536	6	ml.p5.48xlarge	GPU H100
监督微调（完整）	65,536	6	ml.p5.48xlarge	GPU H100

蒸馏
模型	Nodes	实例
模型蒸馏用于后期训练	1	ml.r5.24xlarge

评估
模型	序列长度	Nodes	实例	Accelerator
通用文本基准测试食谱	8192	1	ml.p5.48xlarge	GPU H100
自带数据集 (gen_qa) 基准测试食谱	8192	1	ml.p5.48xlarge	GPU H100
Amazon Nova LLM 作为评委食谱	8192	1	ml.p5.48xlarge	GPU H100
标准文本基准	8192	1	ml.p5.48xlarge	GPU H100
自定义数据集评估	8192	1	ml.p5.48xlarge	GPU H100
多模态基准	8192	1	ml.p5.48xlarge	GPU H100

近端策略优化
模型	评论家模型实例数	奖励模型实例数	锚模型实例数	演员火车	演员一代	实例数量	每次跑步的总时长	P5 课时	实例类型
Amazon Nova Micro	1	1	1	2	2	7	8	56	ml.p5.48xlarge
Amazon Nova Lite	1	1	1	2	2	7	16	112	ml.p5.48xlarge
Amazon Nova Pro	1	1	1	6	2	11	26	260	ml.p5.48xlarge

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

评估

使用 RIG 创建 HyperPod EKS 集群