

# 强化学习
<a name="nova-hp-rft-forge"></a>

**注意**  
订阅后将提供详细文档

Nova Forge 提供高级强化学习能力，支持在自有环境中使用远程奖励函数。客户可选择集成自定义端点执行验证，以获取真实场景下的即时反馈，甚至可使用自定义编排工具在环境中协调代理的多轮评测。

## 使用自带编排工具进行代理多轮评测
<a name="nova-hp-rft-forge-byoo"></a>

对于需要多轮对话或奖励函运行时长超过 15 分钟超时限制的 Forge 用户，Nova Forge 提供自带编排（BYOO）功能。。您可借此在自有环境中协调代理多轮评测（例如：使用化学工具对分子设计打分，或通过机器人仿真对高效完成任务给予奖励、对碰撞行为施加惩罚）。

**Topics**
+ [架构概述](#nova-hp-rft-forge-architecture)
+ [设置与执行](#nova-hp-rft-forge-setup)

### 架构概述
<a name="nova-hp-rft-forge-architecture"></a>

BYOO 架构依托客户自主管理的基础设施，实现对推演与生成流程的完全控制。

**训练 VPC：**
+ **推演**：将推演生成任务委托给客户基础设施，以此协调训练过程
+ **训练器**：根据接收到的推演结果执行模型权重更新

**客户 VPC（如 EC2 上的 ECS）：**
+ **代理 Lambda**：接收推演请求，并与客户基础设施进行协调
+ **推演响应 SQS**：用于将完成的推演结果返回到训练基础设施的队列
+ **生成请求 SQS**：用于模型生成请求的队列
+ **生成响应 SQS**：用于模型生成响应的队列
+ **客户容器**：实现自定义编排逻辑（可使用官方提供的初始工具包）
+ **DynamoDB**：在整个编排过程中存储和检索状态

**工作流：**

1. “推演”将推演生成任务委托给“代理 Lambda”

1. “代理 Lambda”将推演 API 请求推送到“生成请求 SQS”

1. “客户容器”处理请求、管理多轮交互并调用奖励函数

1. 容器根据需要在 DynamoDB 中存储和读取状态

1. 容器将推演响应推送到“推演响应 SQS”

1. “推演”将完成的推演结果发送给“训练器”进行权重更新

### 设置与执行
<a name="nova-hp-rft-forge-setup"></a>

有关详细设置说明、配方配置、请求和响应格式以及环境示例，请参阅提供给 Nova Forge 订阅用户的保密文档。如需获取 Nova Forge 文档，请按照以下步骤操作：

```
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
```

下载资源后，即可在 `docs` 文件夹下找到所有文档。