本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
语音和语音代理
语音和语音代理通过语音对话与用户互动。这些代理集成了语音识别、自然语言理解和语音合成,可在电话、移动、网络和嵌入式平台上实现对话式 AI。
语音代理在免提、实时或可访问性驱动的环境中特别有效。通过将流媒体接口与LLM支持的推理相结合,它们促进了用户感觉自然的丰富、动态的互动。
架构
语音和语音代理如下图所示:
说明
-
收到语音查询
-
用户向手机、麦克风或嵌入式系统发出请求。
-
speech-to-text(STT) 模块将音频转换为文本。
-
-
集成了流媒体和电话环境
-
代理使用流媒体接口实时管理音频 I/O 。
-
如果部署在联络中心或电信环境中,则电话集成会处理会话路由、双音多频 (DTMF) 输入和媒体传输。
-
注意:DTMF 是指按下电话键盘上的按钮时产生的音调。在语音代理内部的流媒体和电话环境集成中,DTMF 被用作电话呼叫期间的信号输入机制,尤其是在交互式语音应答 (IVR) 系统中。DTMF 输入使代理能够:
-
识别菜单选项(例如,“按 1 进行计费。 按 2 获得支持。”)
-
收集数字输入(例如,账号和确认号码) PINs
-
在呼叫流中触发工作流程或状态转换
-
必要时从语音恢复为按键音
-
通过 LLM 直播上下文了解原因
-
查询被发送到代理,代理会将其与任何会话元数据(例如,呼叫者 ID、之前的上下文)一起传递给 LLM。
-
LLM 生成响应,如果交互正在进行中,则可能使用 chain-of-thought策略或多圈记忆。
-
-
返回语音响应
-
代理使用 text-to-speech (TTS) 将其响应转换为语音。
-
它通过语音通道将音频返回给用户。
-
功能
-
实时语音理解和生成
-
支持 ST I/O T 和 TTS 的多语言版本
-
与电话或流媒体集成 APIs
-
会话感知和回合之间的记忆切换
常见使用案例
-
对话式 IVR 系统
-
虚拟接待员和预约安排员
-
语音驱动的帮助台代理
-
可穿戴语音助手
-
智能家居的语音接口和无障碍工具
实施指导
您可以使用以下工具和以下工具来构建此模式 AWS 服务:
-
适用于 STT 的 Amazon Lex V2 或 Amazon Transcribe
-
适用于 TTS 的 Amazon Polly
-
用于直播和电话的 Amazon Chime SDK、Amazon Connect 或亚马逊互动视频服务 (亚马逊 IVS) Interactive Service
-
Amazon Bedrock 用于使用 Anthropic 或其他基础 AI21模型进行推理
-
AWS Lambda 连接 STT、LLM、TTS 和会话上下文
(可选)其他增强功能可能包括以下内容:
-
亚马逊 Kendra 或者 OpenSearch 用于情境感知型 RAG
-
用于会话内存的 Amazon DynamoDB
-
Amazon CloudWatch 日志和可 AWS X-Ray 追溯性
Summary
语音和语音代理是通过自然对话进行交互的智能系统。通过将语音接口与 LLM 推理和实时流媒体基础设施集成,语音代理可实现无缝、可访问和可扩展的交互。