音声エージェント

音声エージェントと音声エージェントは、会話を通じてユーザーとやり取りします。これらのエージェントは、音声認識、自然言語理解、音声合成を統合して、テレフォニー、モバイル、ウェブ、埋め込みプラットフォーム全体で会話 AI を可能にします。

音声エージェントは、ハンドフリー、リアルタイム、またはアクセシビリティ駆動型の環境で特に効果的です。ストリーミングインターフェイスと LLM を活用した推論を組み合わせることで、ユーザーにとって自然なリッチで動的なインタラクションが容易になります。

アーキテクチャ

音声エージェントと音声エージェントを次の図に示します。

説明

音声クエリを受信する
- ユーザーは電話、マイク、または埋め込みシステムにリクエストを発声します。
- speech-to-text (STT) モジュールは、音声をテキストに変換します。
ストリーミングコンテキストとテレフォニーコンテキストを統合する
- エージェントはストリーミングインターフェイスを使用して、オーディオ I/O をリアルタイムで管理します。
- コンタクトセンターまたはテレコムコンテキストにデプロイされている場合、テレフォニー統合はセッションルーティング、デュアルトーンマルチ周波数 (DTMF) 入力、およびメディアトランスポートを処理します。

注: DTMF は、電話キーパッドのボタンを押すと生成されるトーンを指します。音声エージェント内でのストリーミングおよびテレフォニーコンテキスト統合のコンテキストでは、DTMF は、特にインタラクティブ音声応答 (IVR) システムで、通話中の信号入力メカニズムとして使用されます。DTMF 入力により、エージェントは次のことを実行できます。

メニューの選択を認識します (たとえば、「請求の場合は 1 を押します。サポートするには 2 を押します。」)
数値入力 (アカウント番号、PINs収集する
コールフローのワークフローまたは状態遷移をトリガーする
必要に応じて音声からタッチトーンに戻す

LLM ストリームコンテキスト経由の理由
- クエリはエージェントに送信され、セッションメタデータ (発信者 ID、以前のコンテキストなど) とともに LLM に渡されます。
- LLM は、インタラクションが進行中の場合は、chain-of-thought戦略またはマルチターンメモリを使用してレスポンスを生成します。
音声レスポンスを返します。
- エージェントは、テキスト読み上げ (TTS) を使用してtext-to-speechに変換します。
- 音声チャネルを介してユーザーに音声を返します。

機能

リアルタイムの音声の理解と生成
STT と TTS をサポートする多言語 I/O
テレフォニーまたはストリーミング APIsとの統合
ターン間のセッション認識とメモリのハンドオフ

一般的なユースケース

対話型 IVR システム
仮想受付担当者と予約スケジューラ
音声駆動型ヘルプデスクエージェント
ウェアラブル音声アシスタント
スマートホームとアクセシビリティツール用の音声インターフェイス

実装のガイダンス

このパターンは、次のツールとを使用して構築できます AWS のサービス。

STT 用の Amazon Lex V2 または Amazon Transcribe
TTS 用の Amazon Polly
ストリーミングとテレフォニー用の Amazon Chime SDK、Amazon Connect Customer、または Amazon Interactive Video Service (Amazon IVS)
Anthropic、AI21、またはその他の基盤モデルによる推論のための Amazon Bedrock
AWS Lambda STT、LLM、TTS、およびセッションコンテキストを接続するには

(オプション) 追加の機能強化には以下が含まれます。

Amazon Kendra または OpenSearch for コンテキスト対応 RAG
セッションメモリ用の Amazon DynamoDB
トレーサビリティ AWS X-Ray のための Amazon CloudWatch Logs と

概要

音声エージェントは、自然な会話を通じてやり取りするインテリジェントなシステムです。音声インターフェイスを LLM 推論およびリアルタイムストリーミングインフラストラクチャと統合することで、音声エージェントはシームレスでアクセス可能でスケーラブルなインタラクションを可能にします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

コーディングエージェント

ワークフローオーケストレーションエージェント