本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
語音和語音客服人員
語音和語音客服人員透過語音對話與使用者互動。這些代理程式整合語音辨識、自然語言理解和語音合成,以跨電話、行動、Web 和內嵌平台啟用對話式 AI。
語音代理程式在免持、即時或可存取性驅動的環境中特別有效。透過結合串流介面與 LLM 支援的推理,它們可以促進使用者感到自然的豐富、動態互動。
Architecture
下圖顯示語音和語音代理程式:
Description
-
接收語音查詢
-
使用者向電話、麥克風或內嵌系統發出請求。
-
speech-to-text(STT) 模組會將音訊轉換為文字。
-
-
整合串流和電話內容
-
代理程式使用串流介面來即時管理音訊 I/O。
-
如果部署在聯絡中心或電信內容中,電話語音整合會處理工作階段路由、雙音多頻率 (DTMF) 輸入和媒體傳輸。
-
注意:DTMF 是指您按下電話鍵盤上的按鈕時產生的音調。在語音客服人員內串流和電話內容整合的情況下,DTMF 會在通話期間用作訊號輸入機制,尤其是在互動式語音回應 (IVR) 系統中。DTMF 輸入可讓代理程式:
-
辨識選單選擇 (例如,「按 1 進行計費。 支援請按 2。」)
-
收集數值輸入 (例如,帳戶號碼、PINs和確認號碼)
-
在通話流程中觸發工作流程或狀態轉換
-
必要時從語音還原為按鍵音
-
透過 LLM 串流內容的原因
-
查詢會傳送給代理程式,其會連同任何工作階段中繼資料 (例如呼叫者 ID、先前內容) 一起傳遞至 LLM。
-
LLM 會產生回應,如果互動正在進行,可能會使用chain-of-thought策略或多迴轉記憶體。
-
-
傳回語音回應
-
代理程式會使用text-to-speech(TTS) 將其回應轉換為語音。
-
它會透過語音頻道將音訊傳回給使用者。
-
功能
-
即時語音理解和產生
-
支援 STT 和 TTS 的多語言 I/O
-
與電話語音或串流 APIs整合
-
輪換之間的工作階段意識和記憶體切換
常用案例
-
對話式 IVR 系統
-
虛擬接收人員和預約排程人員
-
語音驅動服務台客服人員
-
穿戴式語音助理
-
智慧家庭和可存取工具的語音界面
實作指引
您可以使用下列工具和 建置此模式 AWS 服務:
-
Amazon Lex V2 或 Amazon Transcribe for STT
-
Amazon Polly for TTS
-
用於串流和電話通訊的 Amazon Chime SDK、Amazon Connect 或 Amazon Interactive Video Service (Amazon IVS)
-
Amazon Bedrock 使用 Anthropic、AI21 或其他基礎模型推理
-
AWS Lambda 連接 STT、LLM、TTS 和工作階段內容
(選用) 其他增強功能可能包括下列項目:
-
適用於內容感知 RAG 的 Amazon Kendra 或 OpenSearch
-
適用於工作階段記憶體的 Amazon DynamoDB
-
Amazon CloudWatch Logs 和 AWS X-Ray 可追蹤性
摘要
語音和語音客服人員是透過自然對話互動的智慧型系統。透過整合語音界面與 LLM 推理和即時串流基礎設施,語音代理器可實現無縫、可存取和可擴展的互動。