语音和语音代理

语音和语音代理通过语音对话与用户互动。这些代理集成了语音识别、自然语言理解和语音合成，可在电话、移动、网络和嵌入式平台上实现对话式 AI。

语音代理在免提、实时或可访问性驱动的环境中特别有效。通过将流媒体接口与LLM支持的推理相结合，它们促进了用户感觉自然的丰富、动态的互动。

架构

语音和语音代理如下图所示：

收到语音查询
- 用户向手机、麦克风或嵌入式系统发出请求。
- speech-to-text(STT) 模块将音频转换为文本。
集成了流媒体和电话环境
- 代理使用流媒体接口实时管理音频 I/O 。
- 如果部署在联络中心或电信环境中，则电话集成会处理会话路由、双音多频 (DTMF) 输入和媒体传输。

注意：DTMF 是指按下电话键盘上的按钮时产生的音调。在语音代理内部的流媒体和电话环境集成中，DTMF 被用作电话呼叫期间的信号输入机制，尤其是在交互式语音应答 (IVR) 系统中。DTMF 输入使代理能够：

通过 LLM 直播上下文了解原因
- 查询被发送到代理，代理会将其与任何会话元数据（例如，呼叫者 ID、之前的上下文）一起传递给 LLM。
- LLM 生成响应，如果交互正在进行中，则可能使用 chain-of-thought策略或多圈记忆。
返回语音响应
- 代理使用 text-to-speech (TTS) 将其响应转换为语音。
- 它通过语音通道将音频返回给用户。

您可以使用以下工具和以下工具来构建此模式 AWS 服务：

适用于 STT 的 Amazon Lex V2 或 Amazon Transcribe
适用于 TTS 的 Amazon Polly
用于直播和电话的 Amazon Chime SDK、Amazon Connect 或亚马逊互动视频服务 (亚马逊 IVS) Interactive Service
Amazon Bedrock 用于使用 Anthropic 或其他基础 AI21模型进行推理
AWS Lambda 连接 STT、LLM、TTS 和会话上下文

（可选）其他增强功能可能包括以下内容：

语音和语音代理是通过自然对话进行交互的智能系统。通过将语音接口与 LLM 推理和实时流媒体基础设施集成，语音代理可实现无缝、可访问和可扩展的交互。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

编码代理

工作流程编排代理