强化学习
注意
订阅后将提供详细文档
Nova Forge 提供高级强化学习能力,支持在自有环境中使用远程奖励函数。客户可选择集成自定义端点执行验证,以获取真实场景下的即时反馈,甚至可使用自定义编排工具在环境中协调代理的多轮评测。
使用自带编排工具进行代理多轮评测
对于需要多轮对话或奖励函运行时长超过 15 分钟超时限制的 Forge 用户,Nova Forge 提供自带编排(BYOO)功能。。您可借此在自有环境中协调代理多轮评测(例如:使用化学工具对分子设计打分,或通过机器人仿真对高效完成任务给予奖励、对碰撞行为施加惩罚)。
架构概述
BYOO 架构依托客户自主管理的基础设施,实现对推演与生成流程的完全控制。
训练 VPC:
-
推演:将推演生成任务委托给客户基础设施,以此协调训练过程
-
训练器:根据接收到的推演结果执行模型权重更新
客户 VPC(如 EC2 上的 ECS):
-
代理 Lambda:接收推演请求,并与客户基础设施进行协调
-
推演响应 SQS:用于将完成的推演结果返回到训练基础设施的队列
-
生成请求 SQS:用于模型生成请求的队列
-
生成响应 SQS:用于模型生成响应的队列
-
客户容器:实现自定义编排逻辑(可使用官方提供的初始工具包)
-
DynamoDB:在整个编排过程中存储和检索状态
工作流:
-
“推演”将推演生成任务委托给“代理 Lambda”
-
“代理 Lambda”将推演 API 请求推送到“生成请求 SQS”
-
“客户容器”处理请求、管理多轮交互并调用奖励函数
-
容器根据需要在 DynamoDB 中存储和读取状态
-
容器将推演响应推送到“推演响应 SQS”
-
“推演”将完成的推演结果发送给“训练器”进行权重更新
设置与执行
有关详细设置说明、配方配置、请求和响应格式以及环境示例,请参阅提供给 Nova Forge 订阅用户的保密文档。如需获取 Nova Forge 文档,请按照以下步骤操作:
aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive
下载资源后,即可在 docs 文件夹下找到所有文档。