

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 计算机用代理
<a name="computer-use-agents"></a>

计算机用代理可以模拟或控制数字环境，例如浏览器、终端、文件系统和应用程序。这些代理通过组合 LLM 推理、视觉语言模型 (VLMs) 和执行命令或模拟输入事件的工具服务器来解释用户意图，与视觉和文本界面交互，并执行以目标为导向的操作。

这种模式对于实际的人工智能自动化非常重要，在这种自动化中，代理不仅可以充当助手，还可以充当代理，像人类一样执行操作，通常使用相同的工具和环境。

## 架构
<a name="architecture-computer-use"></a>

计算机使用的代理模式如下图所示：

![\[计算机用代理。\]](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/agentic-ai-patterns/images/computer-use-agents.png)


## 说明
<a name="description-computer-use"></a>

1. 收到查询
   + 任务或请求通过 UI、API 或自然语言界面提供。

1. 访问内存
   + 代理会检索短期和长期记忆，以回忆过去的命令、目标和系统状态。

1. 分析视觉背景
   + VLM 观察计算机屏幕、系统状态或用户界面元素，以了解给定的上下文并识别可操作的项目。

1. 法学硕士学位的理由
   + LLM 将查询、内存状态、工具和服务器响应结合起来，以确定下一个操作。

1. 与工具服务器交互
   + 代理调用服务器上托管的工具，其中可能包括以下内容：
     + 浏览器（例如，无头 Chrome）和外壳环境
     + 文本和代码编辑器
     + 自定义脚本接口

1. 更新视觉输入
   + 如果系统用户界面发生变化或需要进一步观察，VLM 可能会重新分析屏幕状态或文本缓冲区。

1. 更新内存
   + 新的见解、系统状态或用户反馈会写入短期和长期记忆。

1. 制定最终决定和解释
   + LLM 根据查询和工具输出综合结果或建议操作。

1. 返回响应
   + 代理将结果返回到界面（例如，已完成的任务、确认或生成的内容）。

## 功能
<a name="capabilities-computer-use"></a>
+ 带有视觉和文本输入的多模态推理
+ 通过模拟或 API 驱动的输入控制应用程序
+ 永久状态的内存管理
+ 序列执行中的自主权（多步流程）

## 常见使用案例
<a name="common-use-cases-computer-use"></a>
+ 在其中编写和运行代码的 AI 开发人员 IDEs
+ 用于重复数字化工作流程的计算机使用代理
+ 用于软件测试和质量保证的模拟用户
+ 辅助功能代理，用于 UIs 浏览语音或高级指令
+ 通过推理增强的智能机器人流程自动化 (RPA)

## 实施指导
<a name="implementation-guidance-computer-use"></a>
+ 您可以使用以下方法构建此模式 AWS 服务：
+ Amazon Bedrock 用于基于 LLM 的计划和推理
+ Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda，或 SageMaker 亚马逊笔记本电脑，用于在模拟 UI 环境中运行工具服务器
+ 用于内存持久性的亚马逊简单存储服务 (Amazon S3) Service 或 Amazon DynamoDB
+ Amazon Rekognition（或自定义模型）用于混合场景中的用户界面图像分析
+ Amaz CloudWatch on Logs 或者 AWS X-Ray 用于可观察性和审计跟踪

## Summary
<a name="summary-computer-use"></a>

计算机使用代理充当自主的数字运营商，弥合了人机交互和人工智能驱动的操作之间的差距。通过整合内存、工具编排和 VLMs，这些代理可以与专为人类设计的系统进行自适应交互、执行操作、更新文件、浏览菜单和生成响应。