强化学习

订阅后将提供详细文档

Nova Forge 提供高级强化学习能力，支持在自有环境中使用远程奖励函数。客户可选择集成自定义端点执行验证，以获取真实场景下的即时反馈，甚至可使用自定义编排工具在环境中协调代理的多轮评测。

使用自带编排工具进行代理多轮评测

对于需要多轮对话或奖励函运行时长超过 15 分钟超时限制的 Forge 用户，Nova Forge 提供自带编排（BYOO）功能。。您可借此在自有环境中协调代理多轮评测（例如：使用化学工具对分子设计打分，或通过机器人仿真对高效完成任务给予奖励、对碰撞行为施加惩罚）。

BYOO 架构依托客户自主管理的基础设施，实现对推演与生成流程的完全控制。

训练 VPC：

客户 VPC（如 EC2 上的 ECS）：

工作流：

有关详细设置说明、配方配置、请求和响应格式以及环境示例，请参阅提供给 Nova Forge 订阅用户的保密文档。如需获取 Nova Forge 文档，请按照以下步骤操作：


aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

下载资源后，即可在 docs 文件夹下找到所有文档。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

监督式微调

负责任的人工智能工具包