View a markdown version of this page

强化学习 - Amazon Nova

强化学习

注意

订阅后将提供详细文档

Nova Forge 提供高级强化学习能力,支持在自有环境中使用远程奖励函数。客户可选择集成自定义端点执行验证,以获取真实场景下的即时反馈,甚至可使用自定义编排工具在环境中协调代理的多轮评测。

使用自带编排工具进行代理多轮评测

对于需要多轮对话或奖励函运行时长超过 15 分钟超时限制的 Forge 用户,Nova Forge 提供自带编排(BYOO)功能。。您可借此在自有环境中协调代理多轮评测(例如:使用化学工具对分子设计打分,或通过机器人仿真对高效完成任务给予奖励、对碰撞行为施加惩罚)。

架构概述

BYOO 架构依托客户自主管理的基础设施,实现对推演与生成流程的完全控制。

训练 VPC:

  • 推演:将推演生成任务委托给客户基础设施,以此协调训练过程

  • 训练器:根据接收到的推演结果执行模型权重更新

客户 VPC(如 EC2 上的 ECS):

  • 代理 Lambda:接收推演请求,并与客户基础设施进行协调

  • 推演响应 SQS:用于将完成的推演结果返回到训练基础设施的队列

  • 生成请求 SQS:用于模型生成请求的队列

  • 生成响应 SQS:用于模型生成响应的队列

  • 客户容器:实现自定义编排逻辑(可使用官方提供的初始工具包)

  • DynamoDB:在整个编排过程中存储和检索状态

工作流:

  1. “推演”将推演生成任务委托给“代理 Lambda”

  2. “代理 Lambda”将推演 API 请求推送到“生成请求 SQS”

  3. “客户容器”处理请求、管理多轮交互并调用奖励函数

  4. 容器根据需要在 DynamoDB 中存储和读取状态

  5. 容器将推演响应推送到“推演响应 SQS”

  6. “推演”将完成的推演结果发送给“训练器”进行权重更新

设置与执行

有关详细设置说明、配方配置、请求和响应格式以及环境示例,请参阅提供给 Nova Forge 订阅用户的保密文档。如需获取 Nova Forge 文档,请按照以下步骤操作:

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

下载资源后,即可在 docs 文件夹下找到所有文档。