翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 音声エージェント
<a name="speech-and-voice-agents"></a>

音声エージェントと音声エージェントは、会話を通じてユーザーとやり取りします。これらのエージェントは、音声認識、自然言語理解、音声合成を統合して、テレフォニー、モバイル、ウェブ、埋め込みプラットフォーム全体で会話 AI を可能にします。

音声エージェントは、ハンドフリー、リアルタイム、またはアクセシビリティ駆動型の環境で特に効果的です。ストリーミングインターフェイスと LLM を活用した推論を組み合わせることで、ユーザーにとって自然なリッチで動的なインタラクションが容易になります。

## アーキテクチャ
<a name="architecture-speech-and-voice"></a>

音声エージェントと音声エージェントを次の図に示します。

![\[音声エージェント。\]](http://docs.aws.amazon.com/ja_jp/prescriptive-guidance/latest/agentic-ai-patterns/images/speech-and-voice-agents.png)


## 説明
<a name="description-speech-and-voice"></a>

1. 音声クエリを受信する
   + ユーザーは電話、マイク、または埋め込みシステムにリクエストを発声します。
   + speech-to-text (STT) モジュールは、音声をテキストに変換します。

1. ストリーミングコンテキストとテレフォニーコンテキストを統合する
   + エージェントはストリーミングインターフェイスを使用して、オーディオ I/O をリアルタイムで管理します。
   + コンタクトセンターまたはテレコムコンテキストにデプロイされている場合、テレフォニー統合はセッションルーティング、デュアルトーンマルチ周波数 (DTMF) 入力、およびメディアトランスポートを処理します。

注: DTMF は、電話キーパッドのボタンを押すと生成されるトーンを指します。音声エージェント内でのストリーミングおよびテレフォニーコンテキスト統合のコンテキストでは、DTMF は、特にインタラクティブ音声応答 (IVR) システムにおいて、通話中の信号入力メカニズムとして使用されます。DTMF 入力により、エージェントは次のことを実行できます。
+ メニューの選択を認識します (たとえば、「請求の場合は 1 を押します。 サポートの場合は 2 を押します。」)
+ 数値入力 (アカウント番号、PINs収集する
+ コールフローのワークフローまたは状態遷移をトリガーする
+ 必要に応じて音声からタッチトーンに戻す

1. LLM ストリームコンテキスト経由の理由
   + クエリはエージェントに送信され、セッションメタデータ (発信者 ID、以前のコンテキストなど) とともに LLM に渡されます。
   + LLM は、インタラクションが進行中の場合は、chain-of-thought戦略またはマルチターンメモリを使用してレスポンスを生成します。

1. 音声レスポンスを返します。
   + エージェントは、テキスト読み上げ (TTS) を使用してtext-to-speechに変換します。
   + 音声チャネルを介してユーザーに音声を返します。

## 機能
<a name="capabilities-speech-and-voice"></a>
+ リアルタイムの音声の理解と生成
+ STT と TTS をサポートする多言語 I/O
+ テレフォニー API またはストリーミング APIsとの統合
+ ターン間のセッション認識とメモリのハンドオフ

## 一般的なユースケース
<a name="common-use-cases-speech-and-voice"></a>
+ 対話型 IVR システム
+ 仮想受付担当者と予約スケジューラ
+ 音声駆動型ヘルプデスクエージェント
+ ウェアラブル音声アシスタント
+ スマートホームとアクセシビリティツール用の音声インターフェイス

## 実装のガイダンス
<a name="implementation-guidance-speech-and-voice"></a>

このパターンは、次のツールと を使用して構築できます AWS のサービス。
+ STT 用の Amazon Lex V2 または Amazon Transcribe 
+ TTS 用の Amazon Polly 
+ ストリーミングとテレフォニー用の Amazon Chime SDK、Amazon Connect、または Amazon Interactive Video Service (Amazon IVS)
+ Anthropic、AI21、またはその他の基盤モデルによる推論のための Amazon Bedrock
+ AWS Lambda STT、LLM、TTS、セッションコンテキストを接続するには

(オプション) 追加の機能強化には以下が含まれます。
+ Amazon Kendra または OpenSearch for コンテキスト対応 RAG
+ セッションメモリ用の Amazon DynamoDB 
+ トレーサビリティ AWS X-Ray のための Amazon CloudWatch Logs と

## 概要
<a name="summary-speech-and-voice"></a>

音声エージェントは、自然な会話を通じてやり取りするインテリジェントなシステムです。音声インターフェイスを LLM 推論およびリアルタイムストリーミングインフラストラクチャと統合することで、音声エージェントはシームレスでアクセス可能でスケーラブルなインタラクションを可能にします。