コンピュータ使用エージェント - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

コンピュータ使用エージェント

コンピュータを使用するエージェントは、ブラウザ、ターミナル、ファイルシステム、アプリケーションなどのデジタル環境をシミュレートまたは制御できます。これらのエージェントは、LLM 推論、ビジュアル言語モデル (VLMs)、およびコマンドを実行したり入力イベントをシミュレートするツールサーバーを組み合わせて、ユーザーのインテントを解釈し、ビジュアルインターフェイスとテキストインターフェイスを操作し、目標指向のアクションを実行します。

このパターンは、エージェントがアシスタントとしてだけでなく、人間と同じようにアクションを実行するプロキシとしても機能する実用的な AI オートメーションにとって重要です。多くの場合、同じツールや環境を使用します。

アーキテクチャ

コンピュータ使用のエージェントパターンを次の図に示します。

コンピュータ使用エージェント。

説明

  1. クエリを受信する

    • タスクまたはリクエストは、UI、API、または自然言語インターフェイスを介して提供されます。

  2. メモリにアクセスします

    • エージェントは短期および長期のメモリを取得して、過去のコマンド、目標、システムの状態を再現します。

  3. ビジュアルコンテキストを分析する

    • VLM は、コンピュータ画面、システム状態、または UI 要素を観察して、特定のコンテキストを理解し、実用的な項目を特定します。

  4. LLM 経由の理由

    • LLM は、クエリ、メモリ状態、ツール、サーバーのレスポンスを組み合わせて、次のアクションを決定します。

  5. ツールサーバーを操作する

    • エージェントは、サーバーでホストされているツールを呼び出します。これには、以下が含まれる場合があります。

      • ブラウザ (ヘッドレス Chrome など) とシェル環境

      • テキストエディタとコードエディタ

      • カスタムスクリプトインターフェイス

  6. ビジュアル入力を更新します。

    • システム UI が変更されたり、さらに監視が必要な場合、VLM は画面の状態またはテキストバッファを再分析することがあります。

  7. メモリの更新

    • 新しいインサイト、システム状態、またはユーザーフィードバックは、短期および長期のメモリに書き込まれます。

  8. 最終的な決定と説明を策定します

    • LLM は、クエリとツールの出力に基づいて結果を合成するか、アクションを推奨します。

  9. レスポンスを返します。

    • エージェントは、インターフェイスに結果 (完了したタスク、確認、生成されたコンテンツなど) を返します。

機能

  • ビジュアル入力とテキスト入力によるマルチモーダル推論

  • シミュレートされた入力または API 駆動型入力によるアプリケーションの制御

  • 永続状態のメモリ管理

  • シーケンス実行の自律性 (複数ステップフロー)

一般的なユースケース

  • IDEs でコードを記述して実行する AI 開発者

  • 反復的なデジタルワークフロー用のコンピュータ使用エージェント

  • ソフトウェアテストと品質保証のためのシミュレートされたユーザー

  • 音声または高レベルの手順で UIs を移動するためのアクセシビリティエージェント

  • 推論で強化されたスマートロボットプロセスオートメーション (RPA)

実装のガイダンス

  • このパターンは、以下を使用して構築できます AWS のサービス。

  • LLM ベースの計画と推論のための Amazon Bedrock

  • シミュレートされた UI 環境でツールサーバーを実行する Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda、または Amazon SageMaker ノートブック

  • メモリ永続化のための Amazon Simple Storage Service (Amazon S3) または Amazon DynamoDB

  • ハイブリッドシナリオでの UI イメージ分析用の Amazon Rekognition (またはカスタムモデル)

  • オブザーバビリティと監査証跡 AWS X-Ray のための Amazon CloudWatch Logs または

概要

コンピュータを使用するエージェントは自律的なデジタルオペレーターとして機能し、人間とコンピュータのやり取りと AI 主導のアクションの間のギャップを埋めます。メモリ、ツールオーケストレーション、VLMs を組み込むことで、これらのエージェントは人間向けに設計されたシステムと適応的にやり取りしたり、アクションを実行したり、ファイルを更新したり、メニューを操作したり、レスポンスを生成したりできます。