View a markdown version of this page

語音和語音客服人員 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

語音和語音客服人員

語音和語音客服人員透過語音對話與使用者互動。這些代理程式整合語音辨識、自然語言理解和語音合成,以跨電話、行動、Web 和內嵌平台啟用對話式 AI。

語音代理程式在免持、即時或可存取性驅動的環境中特別有效。透過結合串流介面與 LLM 支援的推理,它們可以促進使用者感到自然的豐富、動態互動。

Architecture

下圖顯示語音和語音代理程式:

語音和語音客服人員。

Description

  1. 接收語音查詢

    • 使用者向電話、麥克風或內嵌系統發出請求。

    • speech-to-text(STT) 模組會將音訊轉換為文字。

  2. 整合串流和電話內容

    • 代理程式使用串流介面來即時管理音訊 I/O。

    • 如果部署在聯絡中心或電信內容中,電話語音整合會處理工作階段路由、雙音多頻率 (DTMF) 輸入和媒體傳輸。

注意:DTMF 是指您按下電話鍵盤上的按鈕時產生的音調。在語音客服人員內串流和電話內容整合的情況下,DTMF 會在通話期間用作訊號輸入機制,尤其是在互動式語音回應 (IVR) 系統中。DTMF 輸入可讓代理程式:

  • 辨識選單選擇 (例如,「按 1 進行計費。 支援請按 2。」)

  • 收集數值輸入 (例如,帳戶號碼、PINs和確認號碼)

  • 在通話流程中觸發工作流程或狀態轉換

  • 必要時從語音還原為按鍵音

  1. 透過 LLM 串流內容的原因

    • 查詢會傳送給代理程式,其會連同任何工作階段中繼資料 (例如呼叫者 ID、先前內容) 一起傳遞至 LLM。

    • LLM 會產生回應,如果互動正在進行,可能會使用chain-of-thought策略或多迴轉記憶體。

  2. 傳回語音回應

    • 代理程式會使用text-to-speech(TTS) 將其回應轉換為語音。

    • 它會透過語音頻道將音訊傳回給使用者。

功能

  • 即時語音理解和產生

  • 支援 STT 和 TTS 的多語言 I/O

  • 與電話語音或串流 APIs整合

  • 輪換之間的工作階段意識和記憶體切換

常用案例

  • 對話式 IVR 系統

  • 虛擬接收人員和預約排程人員

  • 語音驅動服務台客服人員

  • 穿戴式語音助理

  • 智慧家庭和可存取工具的語音界面

實作指引

您可以使用下列工具和 建置此模式 AWS 服務:

  • Amazon Lex V2 或 Amazon Transcribe for STT

  • Amazon Polly for TTS

  • 用於串流和電話通訊的 Amazon Chime SDK、Amazon Connect 或 Amazon Interactive Video Service (Amazon IVS)

  • Amazon Bedrock 使用 Anthropic、AI21 或其他基礎模型推理

  • AWS Lambda 連接 STT、LLM、TTS 和工作階段內容

(選用) 其他增強功能可能包括下列項目:

  • 適用於內容感知 RAG 的 Amazon Kendra 或 OpenSearch

  • 適用於工作階段記憶體的 Amazon DynamoDB

  • Amazon CloudWatch Logs 和 AWS X-Ray 可追蹤性

摘要

語音和語音客服人員是透過自然對話互動的智慧型系統。透過整合語音界面與 LLM 推理和即時串流基礎設施,語音代理器可實現無縫、可存取和可擴展的互動。