ソフトウェアエージェントのコア構成要素

次の図は、ほとんどのインテリジェントエージェントで使用されている主要な機能モジュールを示しています。各コンポーネントは、複雑な環境で自律的に動作するエージェントの能力に貢献します。

認識、理由、アクションループのコンテキストでは、エージェントの推論機能は認識モジュールと学習モジュールの両方に分散されます。メモリと学習の統合を通じて、エージェントは過去の経験に基づく適応的推論を開発します。エージェントが環境内で動作すると、緊急のフィードバックループが作成されます。各アクションは将来の認識に影響を与え、結果として生じるエクスペリエンスは学習モジュールを通じてメモリと内部モデルに組み込まれます。この認識、推論、アクションの継続的なループにより、エージェントは時間の経過とともに改善し、認識、理由、アクションサイクル全体を完了できます。

認識モジュール

認識モジュールを使用すると、エージェントはテキスト、オーディオ、センサーなどの多様な入力モダリティを通じて環境とインターフェイスできます。これらの入力は、すべての推論とアクションが基づく raw データを形成します。テキスト入力には、自然言語プロンプト、構造化コマンド、またはドキュメントが含まれる場合があります。音声入力には、話し方や環境音が含まれます。センサー入力には、ビジュアルフィード、モーションシグナル、GPS 座標などの物理データが含まれます。認識の中核となる機能は、この未加工データから意味のある特徴と表現を抽出することです。これにより、エージェントは現在のコンテキストについて正確で実用的な理解を構築できます。このプロセスには、特徴抽出、オブジェクトまたはイベント認識、セマンティック解釈が含まれる場合があり、認識、理由、アクションループの重要な最初のステップを形成します。効果的な認識により、ダウンストリームの推論と意思決定は、関連するup-to-date状況認識に基づいて行われます。

認知モジュール

コグニティブモジュールは、ソフトウェアエージェントの議論の中核として機能します。目標主導の計画と意思決定を通じて、認識を解釈し、インテントを形成し、目的を持った行動を導く責任があります。このモジュールは、入力を構造化された推論プロセスに変換します。これにより、エージェントはリアクティブではなく意図的に動作できます。これらのプロセスは、目標、計画、意思決定の 3 つの主要なサブモジュールによって管理されます。

目標サブモジュール

目標サブモジュールは、エージェントのインテントと方向を定義します。目標は、明示的 (たとえば、「場所に移動する」または「レポートを送信する」) または暗黙的 (たとえば、「ユーザーエンゲージメントを最大化する」または「レイテンシーを最小化する」) にすることができます。これらはエージェントの推論サイクルの中心であり、計画と決定のターゲット状態を提供します。

エージェントは目標に対する進捗状況を継続的に評価し、新しい認識や学習に基づいて目標の優先順位を変更または再生成する場合があります。この目標意識により、エージェントは動的な環境で適応できます。

サブモジュールの計画

計画サブモジュールは、エージェントの現在の目標を達成するための戦略を構築します。アクションシーケンスを生成し、タスクを階層的に分解し、事前定義されたプランまたは動的に生成されたプランから選択します。

非決定的または変化する環境で効果的に運用するには、計画は静的ではありません。最新のエージェントは、chain-of-thoughtシーケンスを生成し、サブ目標を中間ステップとして導入し、条件が変化したときにリアルタイムで計画を改訂できます。

このサブモジュールはメモリや学習と密接に接続し、エージェントは過去の結果に基づいて時間の経過とともに計画を絞り込むことができます。

意思決定サブモジュール

意思決定サブモジュールは、利用可能な計画とアクションを評価して、最も適切な次のステップを選択します。認識からのインプット、現在の計画、エージェントの目標、環境コンテキストを統合します。

意思決定は以下を考慮します。

競合する目標間のトレードオフ
信頼度のしきい値 (認識の不確実性など）
アクションの結果
エージェントの学習経験

アーキテクチャによっては、エージェントはシンボリック推論、ヒューリスティック、強化学習、または言語モデル (LLMs) に依存して、情報に基づいた意思決定を行う場合があります。このプロセスにより、エージェントの動作がコンテキスト対応、目標整合、適応性を維持できます。

アクションモジュール

アクションモジュールは、エージェントが選択した決定を実行し、外部世界または内部システムとやり取りして有意義な効果を生み出す責任があります。これは、インテントが動作に変換される認識、理由、アクションループの Act フェーズを表します。

コグニティブモジュールがアクションを選択すると、アクションモジュールは特殊なサブモジュールを通じて実行を調整します。ここで、各サブモジュールはエージェントの統合環境と一致します。

物理的な介入: ロボットシステムまたは IoT デバイスに埋め込まれたエージェントの場合、このサブモジュールは決定を実際の物理的な動きまたはハードウェアレベルの指示に変換します。

例: ロボットのステアリング、バルブのトリガー、センサーのオン。
統合インタラクション: このサブモジュールは、ソフトウェアシステム、プラットフォーム、APIs。

例: クラウドサービスへのコマンドの送信、データベースの更新、API の呼び出しによるレポートの送信。
ツール呼び出し: エージェントは、特殊なツールを使用して次のようなサブタスクを実行することで、多くの場合機能を拡張します。
- 検索: 構造化ナレッジソースまたは非構造化ナレッジソースのクエリ
- 要約: 大きなテキスト入力を大まかな概要に圧縮する
- 計算: 論理計算、数値計算、またはシンボリック計算の実行
ツール呼び出しは、モジュール式の呼び出し可能なスキルを通じて複雑な動作構成を可能にします。

学習モジュール

学習モジュールを使用すると、エージェントは経験に基づいて時間の経過とともに適応、一般化、改善できます。認識とアクションからのフィードバックを使用して、エージェントの内部モデル、戦略、決定ポリシーを継続的に改善することで、推論プロセスをサポートします。

このモジュールは、短期メモリと長期メモリの両方と連携して動作します。

短期メモリ: ダイアログの状態、現在のタスク情報、最近の観測値などの一時的なコンテキストを保存します。これは、エージェントがインタラクションやタスク内で継続性を維持するのに役立ちます。
長期記憶: 以前に遭遇した目標、アクションの結果、環境状態など、過去の経験からの永続的な知識をエンコードします。長期メモリにより、エージェントはパターンを認識し、戦略を再利用し、ミスの繰り返しを回避できます。

学習モード

学習モジュールは、さまざまな環境とエージェントロールをサポートする、教師あり学習、教師なし学習、強化学習など、さまざまなパラダイムをサポートしています。

教師あり学習: ラベル付きの例に基づいて内部モデルを更新し、多くの場合、人間のフィードバックやトレーニングデータセットから更新します。

例: 以前の会話に基づいてユーザーインテントを分類する方法。
教師なし学習: 明示的なラベルなしでデータの非表示パターンまたは構造を識別します。

例: 異常を検出するための環境シグナルのクラスター化。
強化学習: インタラクティブ環境で累積報酬を最大化することで、試行錯誤を通じて動作を最適化します。

例: どの戦略が最速のタスク完了につながるかを知る。

学習は、エージェントの認知モジュールと緊密に統合されます。過去の成果に基づいて計画戦略を改良し、過去の成功の評価を通じて意思決定を強化し、認識と行動のマッピングを継続的に改善します。このクローズドラーニングとフィードバックループを通じて、エージェントは事後対応的な実行を超えて進化し、時間の経過とともに新しい目標、条件、コンテキストに適応できる自己改善システムになります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

エージェント AI へのソフトウェアエージェント

従来のエージェントアーキテクチャ: 認識、理由、行動