本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
计算机用代理
计算机用代理可以模拟或控制数字环境,例如浏览器、终端、文件系统和应用程序。这些代理通过组合 LLM 推理、视觉语言模型 (VLMs) 和执行命令或模拟输入事件的工具服务器来解释用户意图,与视觉和文本界面交互,并执行以目标为导向的操作。
这种模式对于实际的人工智能自动化非常重要,在这种自动化中,代理不仅可以充当助手,还可以充当代理,像人类一样执行操作,通常使用相同的工具和环境。
Architecture
计算机使用的代理模式如下图所示:
描述
-
收到查询
-
任务或请求通过 UI、API 或自然语言界面提供。
-
-
访问内存
-
代理会检索短期和长期记忆,以回忆过去的命令、目标和系统状态。
-
-
分析视觉背景
-
VLM 观察计算机屏幕、系统状态或用户界面元素,以了解给定的上下文并识别可操作的项目。
-
-
法学硕士学位的理由
-
LLM 将查询、内存状态、工具和服务器响应结合起来,以确定下一个操作。
-
-
与工具服务器交互
-
代理调用服务器上托管的工具,其中可能包括以下内容:
-
浏览器(例如,无头 Chrome)和外壳环境
-
文本和代码编辑器
-
自定义脚本接口
-
-
-
更新视觉输入
-
如果系统用户界面发生变化或需要进一步观察,VLM 可能会重新分析屏幕状态或文本缓冲区。
-
-
更新内存
-
新的见解、系统状态或用户反馈会写入短期和长期记忆。
-
-
制定最终决定和解释
-
LLM 根据查询和工具输出综合结果或建议操作。
-
-
返回响应
-
代理将结果返回到界面(例如,已完成的任务、确认或生成的内容)。
-
功能
-
带有视觉和文本输入的多模态推理
-
通过模拟或 API 驱动的输入控制应用程序
-
永久状态的内存管理
-
序列执行中的自主权(多步流程)
常见使用案例
-
在其中编写和运行代码的 AI 开发人员 IDEs
-
用于重复数字化工作流程的计算机使用代理
-
用于软件测试和质量保证的模拟用户
-
辅助功能代理,用于 UIs 浏览语音或高级指令
-
通过推理增强的智能机器人流程自动化 (RPA)
实施指导
-
您可以使用以下方法构建此模式 AWS 服务:
-
Amazon Bedrock 用于基于 LLM 的计划和推理
-
Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda,或亚马逊 SageMaker 笔记本电脑,用于在模拟 UI 环境中运行工具服务器
-
用于内存持久性的亚马逊简单存储服务 (Amazon S3) Service 或 Amazon DynamoDB
-
Amazon Rekognition(或自定义模型)用于混合场景中的用户界面图像分析
-
Amaz CloudWatch on Logs 或者 AWS X-Ray 用于可观察性和审计跟踪
Summary
计算机使用代理充当自主的数字运营商,弥合了人机交互和人工智能驱动的操作之间的差距。通过整合内存、工具编排和 VLMs,这些代理可以与专为人类设计的系统进行自适应交互、执行操作、更新文件、浏览菜单和生成响应。