基于 SageMaker HyperPod 的 Amazon Nova 自定义 - Amazon Nova

基于 SageMaker HyperPod 的 Amazon Nova 自定义

您可以通过 Amazon Nova 配方自定义 Amazon Nova 模型(包括增强版 Amazon Nova 2.0 模型),并在 Hyperpod 上完成模型训练。配方是指 YAML 配置文件,该文件向 SageMaker AI 提供有关如何运行模型自定义作业的详细信息。SageMaker HyperPod 支持两种服务类型:Forge 与非 Forge。

HyperPod 使用优化的 GPU 实例和适用于 Lustre 的 Amazon FSx 存储提供高性能计算,通过集成 TensorBoard 等工具实现强大的监控,支持灵活的检查点管理以实现迭代改进,可无缝部署到 Amazon Bedrock 进行推理,并支持高效可扩展的多节点分布式训练。所有这些功能协同工作,为组织提供一个安全、高性能且灵活的环境,以便组织根据其特定业务需求定制 Amazon Nova 模型。

在 SageMaker HyperPod 上进行 Amazon Nova 模型自定义时,会将模型构件(包括模型检查点)存储在服务托管的 Amazon S3 存储桶中。服务托管存储桶中的构件使用 SageMaker AI 托管的 AWS KMS 密钥进行加密。服务托管的 Amazon S3 存储桶目前不支持使用客户托管的 KMS 密钥进行数据加密。您可以利用此检查点位置进行评估作业或 Amazon Bedrock 推理。

标准定价适用于计算实例、Amazon S3 存储和适用于 Lustre 的 FSx。有关定价详情,请参阅 HyperPod 定价Amazon S3 定价以及适用于 Lustre 的 FSx 定价

Amazon Nova 1 模型的算力需求

下表汇总了针对 Nova 1.0 模型进行 SageMaker AI 训练作业时的算力需求。

预训练

模型

序列长度

Nodes

实例

Accelerator

Amazon Nova Micro

8192

8

ml.p5.48xlarge

GPU H100

Amazon Nova Lite

8192

16

ml.p5.48xlarge

GPU H100

Amazon Nova Pro

8192

12

ml.p5.48xlarge

GPU H100

直接偏好优化(DPO)

模型

序列长度

节点数量

实例

Accelerator

直接偏好优化(全秩)

32,768

2、4 或 6

ml.p5.48xlarge

GPU H100

直接偏好优化(LoRA)

32,768

2、4 或 6

ml.p5.48xlarge

GPU H100

微调

模型

方法

序列长度

节点数量

实例

Accelerator

Amazon Nova 1 Micro

监督式微调(LoRA)

65536

2

ml.p5.48xlarge

GPU H100

Amazon Nova 1 Micro

监督式微调(全秩)

65536

2

ml.p5.48xlarge

GPU H100

Amazon Nova 1 Lite

监督式微调(LoRA)

32,768

4

ml.p5.48xlarge

GPU H100

Amazon Nova 1 Lite

监督式微调(全秩)

65536

4

ml.p5.48xlarge

GPU H100

Amazon Nova 1 Pro

监督式微调(LoRA)

65536

6

ml.p5.48xlarge

GPU H100

Amazon Nova 1 Pro

监督式微调(全秩)

65536

6

ml.p5.48xlarge

GPU H100

蒸馏

模型

Nodes

实例

针对后训练的模型蒸馏

1

ml.r5.24xlarge

评估

模型

序列长度

Nodes

实例

Accelerator

通用文本基准测试配方

8192

1

ml.p5.48xlarge

GPU H100

自带数据集(gen_qa)基准测试配方

8192

1

ml.p5.48xlarge

GPU H100

Amazon Nova LLM-as-a-Judge 配方

8192

1

ml.p5.48xlarge

GPU H100

标准文本基准测试

8192

1

ml.p5.48xlarge

GPU H100

自定义数据集评估

8192

1

ml.p5.48xlarge

GPU H100

多模态基准测试

8192

1

ml.p5.48xlarge

GPU H100

近端策略优化

模型

评估模型实例计数

奖励模型实例计数

锚点模型实例计数

角色训练

角色生成

实例数

每次运行总时长

P5 小时数

实例类型

Amazon Nova Micro

1

1

1

2

2

7

8

56

ml.p5.48xlarge

Amazon Nova Lite

1

1

1

2

2

7

16

112

ml.p5.48xlarge

Amazon Nova Pro

1

1

1

6

2

11

26

260

ml.p5.48xlarge