

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 電腦使用代理程式
<a name="computer-use-agents"></a>

電腦使用代理程式可以模擬或控制數位環境，例如瀏覽器、終端機、檔案系統和應用程式。這些代理程式會解譯使用者意圖、與視覺和文字界面互動，並透過結合 LLM 推理、視覺語言模型 (VLMs) 和執行命令或模擬輸入事件的工具伺服器來執行目標導向動作。

此模式對於實際的 AI 自動化很重要，其中代理程式不僅做為助理，也做為代理程式，通常透過使用相同的工具和環境來執行與人類相同的動作。

## Architecture
<a name="architecture-computer-use"></a>

下圖顯示電腦使用代理程式模式：

![\[電腦使用代理程式。\]](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/agentic-ai-patterns/images/computer-use-agents.png)


## Description
<a name="description-computer-use"></a>

1. 接收查詢
   + 任務或請求是透過 UI、API 或自然語言界面提供。

1. 存取記憶體
   + 代理程式會擷取短期和長期記憶體，以叫用過去的命令、目標和系統狀態。

1. 分析視覺化內容
   + VLM 會觀察電腦畫面、系統狀態或 UI 元素，以了解特定內容並識別可採取動作的項目。

1. 透過 LLM 的原因
   + LLM 結合了查詢、記憶體狀態、工具和伺服器回應，以判斷下一個動作。

1. 與工具伺服器互動
   + 代理程式會叫用託管在伺服器上的工具，其中可能包括下列項目：
     + 瀏覽器 （例如無周邊 Chrome) 和 shell 環境
     + 文字和程式碼編輯器
     + 自訂指令碼界面

1. 更新視覺化輸入
   + 如果需要系統 UI 變更或進一步觀察，VPM 可能會重新分析畫面狀態或文字緩衝區。

1. 更新記憶體
   + 新的洞見、系統狀態或使用者意見回饋會寫入短期和長期記憶體。

1. 制定最終決策和說明
   + LLM 會根據查詢和工具輸出合成結果或建議動作。

1. 傳回回應
   + 代理程式會將結果傳回至界面 （例如，已完成的任務、確認或產生的內容）。

## 功能
<a name="capabilities-computer-use"></a>
+ 具有視覺和文字輸入的多模態推理
+ 透過模擬或 API 驅動輸入控制應用程式
+ 持久性狀態的記憶體管理
+ 序列執行的自主性 （多步驟流程）

## 常用案例
<a name="common-use-cases-computer-use"></a>
+ 在 IDEs AI 開發人員
+ 用於重複數位工作流程的電腦使用代理程式
+ 用於軟體測試和品質保證的模擬使用者
+ 透過語音或高階指示導覽 UIs 的存取代理程式
+ 透過推理增強的智慧機器人程序自動化 (RPA)

## 實作指引
<a name="implementation-guidance-computer-use"></a>
+ 您可以使用下列方式建置此模式 AWS 服務：
+ 適用於 LLM 型規劃和推理的 Amazon Bedrock
+ Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda或 Amazon SageMaker 筆記本，以使用模擬 UI 環境執行工具伺服器
+ 適用於記憶體持久性的 Amazon Simple Storage Service (Amazon S3) 或 Amazon DynamoDB 
+ 在混合式案例中用於 UI 影像分析的 Amazon Rekognition （或自訂模型）
+ Amazon CloudWatch Logs 或 AWS X-Ray 可觀測性和稽核線索

## 摘要
<a name="summary-computer-use"></a>

電腦使用代理程式充當自主數位運算子，彌補人類電腦互動和 AI 驅動動作之間的差距。透過整合記憶體、工具協同運作和 VLMs，這些代理程式可以適應性地與專為人類設計的系統互動、執行動作、更新檔案、導覽功能表和產生回應。