赋值器反射-优化循环模式 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

赋值器反射-优化循环模式

诸如代码生成、摘要或自主决策之类的任务可以从运行时反馈中受益匪浅,从而使系统能够通过观察和完善来发展。为了实现这一点,可以将反射-精炼周期作为事件驱动的反馈控制回路来实现,这种模式的灵感来自系统工程,适用于自主、智能的工作流程。

下图是评估器反射精简反馈回路的示例:

评估器反射-优化反馈回路。

反馈控制回路

反馈控制回路是一种模式,它监视自己的输出和行为,根据定义的标准或所需状态对其进行评估,然后相应地调整其动作。该架构的灵感来自控制理论,是自动化、持续集成和持续交付 (CI/CD) 管道以及机器学习操作等领域的基础。

下图是反馈控制回路的示例:

反馈控制回路。
  1. 部署管道会发出 buildComplete 事件。

  2. 该事件会触发自动测试或评估作业,以验证构建。

  3. 如果验证失败(例如,由于测试失败、安全问题或违反策略),则系统:

    • 发出 BuildComplete 事件

    • 记录问题或发送通知

    • 触发补救或更正操作,例如回滚、修补或重试

循环一直持续到产生可接受的结果或升级,或者出现超时。此模式通常用于以下用途:

  • Amazon 将事件路由到评估或补救任务的 EventBridge 规则

  • AWS Step Functions 用于迭代重试逻辑和对评估结果进行分支

  • 亚马逊简单通知服务 (Amazon SNS) Simple Notification Service 或 A CloudWatch mazon 警报,用于发送反馈触发器和警报

  • AWS Lambda 职能或容器化工作人员采取纠正措施

反馈控制回路(评估器)

评估者工作流程是由 LLMs 我们的推理代理提供支持的认知反馈循环。该过程包括以下内容:

  1. 生成器代理或 LLM 生成输出(例如,计划、答案或草稿)。

  2. 评估人员使用批评提示或评估标准来审查结果。

  3. 根据反馈,原始代理或新的优化器代理修改输出。

循环会重复,直到结果符合一组标准、获得批准或达到重试限制。

评估者

  1. 用户要求代理撰写策略摘要。

  2. 生成器代理起草它。

  3. 评估人员检查覆盖范围、语气和法律正确性。

  4. 如果响应不充分,则会对其进行完善并重新提交,直到反馈回路趋于一致。

这可以实现自我评估、迭代完善和自适应输出控制,所有这些都无需人工输入。

下图是反馈控制回路(赋值器)的示例:

反馈控制回路(评估器)。
  1. 用户下达任务(例如,起草业务策略)。

  2. Amazon Bedrock 代理使用 LLM 生成初始草稿。

  3. 第二个代理(或后续提示)执行结构化评估(例如,“根据清晰度、完整性和语气对输出进行评分”)。

  4. 如果评级低于阈值,则通过以下方式对响应进行修改:

    • 使用嵌入式评论重新调用生成器

    • 将反馈发送给专业的炼油厂代理商

    • 迭代直到得到可接受的响应

可选组件,例如 AWS Lambda 控制器或 AWS Step Functions 可以管理反馈阈值、重试和回退策略。

外卖

传统的反馈控制回路使用事件、指标和补救逻辑来验证和调整系统行为,而代理评估器循环则使用推理代理来动态评估、反映和修改输出。

在这两种范式中:

  • 输出在生成后进行评估

  • 根据反馈触发纠正或完善措施

  • 系统不断适应目标质量或目标

代理版本将静态验证转换为语义反射,从而使自我完善的代理能够评估自己的有效性。