

# 基于 SageMaker HyperPod 的 Amazon Nova 自定义
<a name="nova-hp"></a>

您可以通过 [Amazon Nova 配方](nova-model-recipes.md)自定义 Amazon Nova 模型（包括增强版 Amazon Nova 2.0 模型），并在 Hyperpod 上完成模型训练。配方是指 YAML 配置文件，该文件向 SageMaker AI 提供有关如何运行模型自定义作业的详细信息。SageMaker HyperPod 支持两种服务类型：Forge 与非 Forge。

HyperPod 使用优化的 GPU 实例和适用于 Lustre 的 Amazon FSx 存储提供高性能计算，通过集成 TensorBoard 等工具实现强大的监控，支持灵活的检查点管理以实现迭代改进，可无缝部署到 Amazon Bedrock 进行推理，并支持高效可扩展的多节点分布式训练。所有这些功能协同工作，为组织提供一个安全、高性能且灵活的环境，以便组织根据其特定业务需求定制 Amazon Nova 模型。

在 SageMaker HyperPod 上进行 Amazon Nova 模型自定义时，会将模型构件（包括模型检查点）存储在服务托管的 Amazon S3 存储桶中。服务托管存储桶中的构件使用 SageMaker AI 托管的 AWS KMS 密钥进行加密。服务托管的 Amazon S3 存储桶目前不支持使用客户托管的 KMS 密钥进行数据加密。您可以利用此检查点位置进行评估作业或 Amazon Bedrock 推理。

标准定价适用于计算实例、Amazon S3 存储和适用于 Lustre 的 FSx。有关定价详情，请参阅 [HyperPod 定价](https://aws.amazon.com/sagemaker-ai/pricing/)、[Amazon S3 定价](https://aws.amazon.com/s3/pricing/)以及[适用于 Lustre 的 FSx 定价](https://aws.amazon.com/fsx/lustre/pricing/)。

## Amazon Nova 1 模型的算力需求
<a name="nova-hp-compute-1"></a>

下表汇总了针对 Nova 1.0 模型进行 SageMaker AI 训练作业时的算力需求。


**预训练**  

| 模型 | 序列长度 | Nodes | 实例 | Accelerator | 
| --- |--- |--- |--- |--- |
| Amazon Nova Micro | 8192 | 8 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova Lite | 8192 | 16 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova Pro | 8192 | 12 | ml.p5.48xlarge | GPU H100 | 


**直接偏好优化（DPO）**  

| 模型 | 序列长度 | 节点数量 | 实例 | Accelerator | 
| --- |--- |--- |--- |--- |
| 直接偏好优化（全秩） | 32,768 | 2、4 或 6 | ml.p5.48xlarge | GPU H100 | 
| 直接偏好优化（LoRA） | 32,768 | 2、4 或 6 | ml.p5.48xlarge | GPU H100 | 


**微调**  

| 模型 | 方法 | 序列长度 | 节点数量 | 实例 | Accelerator | 
| --- |--- |--- |--- |--- |--- |
| Amazon Nova 1 Micro | 监督式微调（LoRA） | 65,536 | 2 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova 1 Micro | 监督式微调（全秩） | 65,536 | 2 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova 1 Lite | 监督式微调（LoRA） | 32,768 | 4 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova 1 Lite | 监督式微调（全秩） | 65,536 | 4 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova 1 Pro | 监督式微调（LoRA） | 65,536 | 6 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova 1 Pro | 监督式微调（全秩） | 65,536 | 6 | ml.p5.48xlarge | GPU H100 | 


**蒸馏**  

| 模型 | Nodes | 实例 | 
| --- |--- |--- |
| 针对后训练的模型蒸馏 | 1 | ml.r5.24xlarge | 


**评估**  

| 模型 | 序列长度 | Nodes | 实例 | Accelerator | 
| --- |--- |--- |--- |--- |
| 通用文本基准测试配方 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 
| 自带数据集（gen\_qa）基准测试配方 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 
| Amazon Nova LLM-as-a-Judge 配方 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 
| 标准文本基准测试 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 
| 自定义数据集评估 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 
| 多模态基准测试 | 8192 | 1 | ml.p5.48xlarge | GPU H100 | 


**近端策略优化**  

| 模型 | 评估模型实例计数 | 奖励模型实例计数 | 锚点模型实例计数 | 角色训练 | 角色生成 | 实例数 | 每次运行总时长 | P5 小时数 | 实例类型 | 
| --- |--- |--- |--- |--- |--- |--- |--- |--- |--- |
| Amazon Nova Micro | 1 | 1 | 1 | 2 | 2 | 7 | 8 | 56 | ml.p5.48xlarge | 
| Amazon Nova Lite | 1 | 1 | 1 | 2 | 2 | 7 | 16 | 112 | ml.p5.48xlarge | 
| Amazon Nova Pro | 1 | 1 | 1 | 6 | 2 | 11 | 26 | 260 | ml.p5.48xlarge | 

**Topics**
+ [Amazon Nova 1 模型的算力需求](#nova-hp-compute-1)
+ [Nova Forge SDK](nova-hp-forge-sdk.md)
+ [Amazon SageMaker HyperPod 核心命令指南](nova-hp-essential-commands-guide.md)
+ [创建带有受限实例组（RIG）的 SageMaker HyperPod EKS 集群](nova-hp-cluster.md)
+ [Nova Forge 访问与设置](nova-forge-hp-access.md)
+ [Amazon Nova 模型训练](nova-hp-training.md)
+ [在 SageMaker HyperPod 上微调 Amazon Nova 模型](nova-hp-fine-tune.md)
+ [评估经过训练的模型](nova-hp-evaluate.md)
+ [使用 MLflow 监控 HyperPod](nova-hp-mlflow.md)