電腦使用代理程式 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

電腦使用代理程式

電腦使用代理程式可以模擬或控制數位環境,例如瀏覽器、終端機、檔案系統和應用程式。這些代理程式會解譯使用者意圖、與視覺和文字界面互動,並透過結合 LLM 推理、視覺語言模型 (VLMs) 和執行命令或模擬輸入事件的工具伺服器來執行目標導向動作。

此模式對於實際 AI 自動化很重要,其中代理程式不僅做為助理,也做為代理程式,通常透過使用相同的工具和環境來執行與人類相同的動作。

Architecture

下圖顯示電腦使用代理程式模式:

電腦使用代理程式。

說明

  1. 接收查詢

    • 任務或請求是透過 UI、API 或自然語言界面提供。

  2. 存取記憶體

    • 代理程式會擷取短期和長期記憶體,以叫用過去的命令、目標和系統狀態。

  3. 分析視覺化內容

    • VLM 會觀察電腦畫面、系統狀態或 UI 元素,以了解特定內容並識別可採取動作的項目。

  4. 透過 LLM 的原因

    • LLM 結合了查詢、記憶體狀態、工具和伺服器回應,以判斷下一個動作。

  5. 與工具伺服器互動

    • 代理程式會叫用託管在伺服器上的工具,其中可能包括下列項目:

      • 瀏覽器 (例如無頭 Chrome) 和 shell 環境

      • 文字和程式碼編輯器

      • 自訂指令碼界面

  6. 更新視覺化輸入

    • 如果需要系統 UI 變更或進一步觀察,VPM 可能會重新分析畫面狀態或文字緩衝區。

  7. 更新記憶體

    • 新的洞見、系統狀態或使用者意見回饋會寫入短期和長期記憶體。

  8. 制定最終決策和說明

    • LLM 會根據查詢和工具輸出合成結果或建議動作。

  9. 傳回回應

    • 代理程式會將結果傳回至界面 (例如,已完成的任務、確認或產生的內容)。

功能

  • 具有視覺和文字輸入的多模態推理

  • 透過模擬或 API 驅動輸入控制應用程式

  • 持久性狀態的記憶體管理

  • 序列執行的自主性 (多步驟流程)

常用案例

  • 在 IDEs AI 開發人員

  • 用於重複數位工作流程的電腦使用代理程式

  • 用於軟體測試和品質保證的模擬使用者

  • 透過語音或高階指示導覽 UIs 的存取代理程式

  • 透過推理增強的智慧機器人程序自動化 (RPA)

實作指引

  • 您可以使用下列方式建置此模式 AWS 服務:

  • 適用於 LLM 型規劃和推理的 Amazon Bedrock

  • Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda或 Amazon SageMaker 筆記本,以使用模擬 UI 環境執行工具伺服器

  • 適用於記憶體持久性的 Amazon Simple Storage Service (Amazon S3) 或 Amazon DynamoDB

  • 在混合式案例中用於 UI 影像分析的 Amazon Rekognition (或自訂模型)

  • Amazon CloudWatch Logs 或 AWS X-Ray 可觀測性和稽核線索

Summary

電腦使用代理程式充當自主數位運算子,彌補人類電腦互動和 AI 驅動動作之間的差距。透過整合記憶體、工具協同運作和 VLMs,這些代理程式可以適應性地與專為人類設計的系統互動、執行動作、更新檔案、導覽功能表和產生回應。