计算机用代理

计算机用代理可以模拟或控制数字环境，例如浏览器、终端、文件系统和应用程序。这些代理通过组合 LLM 推理、视觉语言模型 (VLMs) 和执行命令或模拟输入事件的工具服务器来解释用户意图，与视觉和文本界面交互，并执行以目标为导向的操作。

这种模式对于实际的人工智能自动化非常重要，在这种自动化中，代理不仅可以充当助手，还可以充当代理，像人类一样执行操作，通常使用相同的工具和环境。

架构

计算机使用的代理模式如下图所示：

收到查询
- 任务或请求通过 UI、API 或自然语言界面提供。
访问内存
- 代理会检索短期和长期记忆，以回忆过去的命令、目标和系统状态。
分析视觉背景
- VLM 观察计算机屏幕、系统状态或用户界面元素，以了解给定的上下文并识别可操作的项目。
法学硕士学位的理由
- LLM 将查询、内存状态、工具和服务器响应结合起来，以确定下一个操作。
与工具服务器交互
- 代理调用服务器上托管的工具，其中可能包括以下内容：
  - 浏览器（例如，无头 Chrome）和外壳环境
  - 文本和代码编辑器
  - 自定义脚本接口
更新视觉输入
- 如果系统用户界面发生变化或需要进一步观察，VLM 可能会重新分析屏幕状态或文本缓冲区。
更新内存
- 新的见解、系统状态或用户反馈会写入短期和长期记忆。
制定最终决定和解释
- LLM 根据查询和工具输出综合结果或建议操作。
返回响应
- 代理将结果返回到界面（例如，已完成的任务、确认或生成的内容）。

您可以使用以下方法构建此模式 AWS 服务：
Amazon Bedrock 用于基于 LLM 的计划和推理
Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda，或 SageMaker 亚马逊笔记本电脑，用于在模拟 UI 环境中运行工具服务器
用于内存持久性的亚马逊简单存储服务 (Amazon S3) Service 或 Amazon DynamoDB
Amazon Rekognition（或自定义模型）用于混合场景中的用户界面图像分析
Amaz CloudWatch on Logs 或者 AWS X-Ray 用于可观察性和审计跟踪

计算机使用代理充当自主的数字运营商，弥合了人机交互和人工智能驱动的操作之间的差距。通过整合内存、工具编排和 VLMs，这些代理可以与专为人类设计的系统进行自适应交互、执行操作、更新文件、浏览菜单和生成响应。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

基于工具的服务器代理

编码代理