本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
電腦使用代理程式
電腦使用代理程式可以模擬或控制數位環境,例如瀏覽器、終端機、檔案系統和應用程式。這些代理程式會解譯使用者意圖、與視覺和文字界面互動,並透過結合 LLM 推理、視覺語言模型 (VLMs) 和執行命令或模擬輸入事件的工具伺服器來執行目標導向動作。
此模式對於實際 AI 自動化很重要,其中代理程式不僅做為助理,也做為代理程式,通常透過使用相同的工具和環境來執行與人類相同的動作。
Architecture
下圖顯示電腦使用代理程式模式:
說明
-
接收查詢
-
任務或請求是透過 UI、API 或自然語言界面提供。
-
-
存取記憶體
-
代理程式會擷取短期和長期記憶體,以叫用過去的命令、目標和系統狀態。
-
-
分析視覺化內容
-
VLM 會觀察電腦畫面、系統狀態或 UI 元素,以了解特定內容並識別可採取動作的項目。
-
-
透過 LLM 的原因
-
LLM 結合了查詢、記憶體狀態、工具和伺服器回應,以判斷下一個動作。
-
-
與工具伺服器互動
-
代理程式會叫用託管在伺服器上的工具,其中可能包括下列項目:
-
瀏覽器 (例如無頭 Chrome) 和 shell 環境
-
文字和程式碼編輯器
-
自訂指令碼界面
-
-
-
更新視覺化輸入
-
如果需要系統 UI 變更或進一步觀察,VPM 可能會重新分析畫面狀態或文字緩衝區。
-
-
更新記憶體
-
新的洞見、系統狀態或使用者意見回饋會寫入短期和長期記憶體。
-
-
制定最終決策和說明
-
LLM 會根據查詢和工具輸出合成結果或建議動作。
-
-
傳回回應
-
代理程式會將結果傳回至界面 (例如,已完成的任務、確認或產生的內容)。
-
功能
-
具有視覺和文字輸入的多模態推理
-
透過模擬或 API 驅動輸入控制應用程式
-
持久性狀態的記憶體管理
-
序列執行的自主性 (多步驟流程)
常用案例
-
在 IDEs AI 開發人員
-
用於重複數位工作流程的電腦使用代理程式
-
用於軟體測試和品質保證的模擬使用者
-
透過語音或高階指示導覽 UIs 的存取代理程式
-
透過推理增強的智慧機器人程序自動化 (RPA)
實作指引
-
您可以使用下列方式建置此模式 AWS 服務:
-
適用於 LLM 型規劃和推理的 Amazon Bedrock
-
Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda或 Amazon SageMaker 筆記本,以使用模擬 UI 環境執行工具伺服器
-
適用於記憶體持久性的 Amazon Simple Storage Service (Amazon S3) 或 Amazon DynamoDB
-
在混合式案例中用於 UI 影像分析的 Amazon Rekognition (或自訂模型)
-
Amazon CloudWatch Logs 或 AWS X-Ray 可觀測性和稽核線索
Summary
電腦使用代理程式充當自主數位運算子,彌補人類電腦互動和 AI 驅動動作之間的差距。透過整合記憶體、工具協同運作和 VLMs,這些代理程式可以適應性地與專為人類設計的系統互動、執行動作、更新檔案、導覽功能表和產生回應。