本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 語音和語音客服人員
<a name="speech-and-voice-agents"></a>

語音和語音客服人員透過語音對話與使用者互動。這些代理程式整合語音辨識、自然語言理解和語音合成，以跨電話、行動、Web 和內嵌平台啟用對話式 AI。

語音代理程式在免持、即時或可存取性驅動的環境中特別有效。透過結合串流介面與 LLM 支援的推理，它們可以促進使用者感到自然的豐富、動態互動。

## Architecture
<a name="architecture-speech-and-voice"></a>

下圖顯示語音和語音代理程式：

![語音和語音客服人員。](http://docs.aws.amazon.com/zh_tw/prescriptive-guidance/latest/agentic-ai-patterns/images/speech-and-voice-agents.png)


## Description
<a name="description-speech-and-voice"></a>

1. 接收語音查詢
   + 使用者向電話、麥克風或內嵌系統發出請求。
   + speech-to-text(STT) 模組會將音訊轉換為文字。

1. 整合串流和電話內容
   + 代理程式使用串流介面來即時管理音訊 I/O。
   + 如果部署在聯絡中心或電信內容中，電話整合會處理工作階段路由、雙音多頻率 (DTMF) 輸入和媒體傳輸。

注意：DTMF 是指您按下電話鍵盤上的按鈕時產生的音調。在語音客服人員內串流和電話內容整合的情況下，DTMF 會在通話期間用作訊號輸入機制，尤其是在互動式語音回應 (IVR) 系統中。DTMF 輸入可讓代理程式：
+ 辨識選單選擇 （例如，「按 1 進行計費。 支援請按 2。」)
+ 收集數值輸入 （例如，帳戶號碼、PINs和確認號碼）
+ 在通話流程中觸發工作流程或狀態轉換
+ 必要時從語音還原為按鍵音

1. 透過 LLM 串流內容的原因
   + 查詢會傳送至代理程式，其會連同任何工作階段中繼資料 （例如呼叫者 ID、先前內容） 一起傳遞至 LLM。
   + LLM 會產生回應，如果互動正在進行，可能會使用chain-of-thought策略或多迴轉記憶體。

1. 傳回語音回應
   + 代理程式會使用text-to-speech(TTS) 將其回應轉換為語音。
   + 它會透過語音頻道將音訊傳回給使用者。

## 功能
<a name="capabilities-speech-and-voice"></a>
+ 即時語音理解和產生
+ 支援 STT 和 TTS 的多語言 I/O
+ 與電話語音或串流 APIs整合
+ 輪換之間的工作階段意識和記憶體切換

## 常用案例
<a name="common-use-cases-speech-and-voice"></a>
+ 對話式 IVR 系統
+ 虛擬接收人員和預約排程人員
+ 語音驅動服務台客服人員
+ 穿戴式語音助理
+ 智慧家庭和可存取工具的語音界面

## 實作指引
<a name="implementation-guidance-speech-and-voice"></a>

您可以使用下列工具和 建置此模式 AWS 服務：
+ Amazon Lex V2 或 Amazon Transcribe for STT
+ Amazon Polly for TTS
+ 用於串流和電話通訊的 Amazon Chime SDK、Amazon Connect Customer 或 Amazon Interactive Video Service (Amazon IVS)
+ Amazon Bedrock 使用 Anthropic、AI21 或其他基礎模型推理
+ AWS Lambda 連接 STT、LLM、TTS 和工作階段內容

（選用） 其他增強功能可能包括下列項目：
+ 適用於內容感知 RAG 的 Amazon Kendra 或 OpenSearch 
+ 適用於工作階段記憶體的 Amazon DynamoDB 
+ Amazon CloudWatch Logs 和 AWS X-Ray 可追蹤性

## 摘要
<a name="summary-speech-and-voice"></a>

語音和語音客服人員是透過自然對話互動的智慧型系統。透過整合語音界面與 LLM 推理和即時串流基礎設施，語音代理器可實現無縫、可存取和可擴展的互動。