计算机用代理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

计算机用代理

计算机用代理可以模拟或控制数字环境,例如浏览器、终端、文件系统和应用程序。这些代理通过组合 LLM 推理、视觉语言模型 (VLMs) 和执行命令或模拟输入事件的工具服务器来解释用户意图,与视觉和文本界面交互,并执行以目标为导向的操作。

这种模式对于实际的人工智能自动化非常重要,在这种自动化中,代理不仅可以充当助手,还可以充当代理,像人类一样执行操作,通常使用相同的工具和环境。

Architecture

计算机使用的代理模式如下图所示:

计算机用代理。

描述

  1. 收到查询

    • 任务或请求通过 UI、API 或自然语言界面提供。

  2. 访问内存

    • 代理会检索短期和长期记忆,以回忆过去的命令、目标和系统状态。

  3. 分析视觉背景

    • VLM 观察计算机屏幕、系统状态或用户界面元素,以了解给定的上下文并识别可操作的项目。

  4. 法学硕士学位的理由

    • LLM 将查询、内存状态、工具和服务器响应结合起来,以确定下一个操作。

  5. 与工具服务器交互

    • 代理调用服务器上托管的工具,其中可能包括以下内容:

      • 浏览器(例如,无头 Chrome)和外壳环境

      • 文本和代码编辑器

      • 自定义脚本接口

  6. 更新视觉输入

    • 如果系统用户界面发生变化或需要进一步观察,VLM 可能会重新分析屏幕状态或文本缓冲区。

  7. 更新内存

    • 新的见解、系统状态或用户反馈会写入短期和长期记忆。

  8. 制定最终决定和解释

    • LLM 根据查询和工具输出综合结果或建议操作。

  9. 返回响应

    • 代理将结果返回到界面(例如,已完成的任务、确认或生成的内容)。

功能

  • 带有视觉和文本输入的多模态推理

  • 通过模拟或 API 驱动的输入控制应用程序

  • 永久状态的内存管理

  • 序列执行中的自主权(多步流程)

常见使用案例

  • 在其中编写和运行代码的 AI 开发人员 IDEs

  • 用于重复数字化工作流程的计算机使用代理

  • 用于软件测试和质量保证的模拟用户

  • 辅助功能代理,用于 UIs 浏览语音或高级指令

  • 通过推理增强的智能机器人流程自动化 (RPA)

实施指导

  • 您可以使用以下方法构建此模式 AWS 服务:

  • Amazon Bedrock 用于基于 LLM 的计划和推理

  • Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda,或亚马逊 SageMaker 笔记本电脑,用于在模拟 UI 环境中运行工具服务器

  • 用于内存持久性的亚马逊简单存储服务 (Amazon S3) Service 或 Amazon DynamoDB

  • Amazon Rekognition(或自定义模型)用于混合场景中的用户界面图像分析

  • Amaz CloudWatch on Logs 或者 AWS X-Ray 用于可观察性和审计跟踪

Summary

计算机使用代理充当自主的数字运营商,弥合了人机交互和人工智能驱动的操作之间的差距。通过整合内存、工具编排和 VLMs,这些代理可以与专为人类设计的系统进行自适应交互、执行操作、更新文件、浏览菜单和生成响应。