

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 语音和语音代理
<a name="speech-and-voice-agents"></a>

语音和语音代理通过语音对话与用户互动。这些代理集成了语音识别、自然语言理解和语音合成，可在电话、移动、网络和嵌入式平台上实现对话式 AI。

语音代理在免提、实时或可访问性驱动的环境中特别有效。通过将流媒体接口与LLM支持的推理相结合，它们促进了用户感觉自然的丰富、动态的互动。

## 架构
<a name="architecture-speech-and-voice"></a>

语音和语音代理如下图所示：

![语音和语音代理。](http://docs.aws.amazon.com/zh_cn/prescriptive-guidance/latest/agentic-ai-patterns/images/speech-and-voice-agents.png)


## 说明
<a name="description-speech-and-voice"></a>

1. 收到语音查询
   + 用户向手机、麦克风或嵌入式系统发出请求。
   +  speech-to-text(STT) 模块将音频转换为文本。

1. 集成了流媒体和电话环境
   + 代理使用流媒体接口实时管理音频 I/O 。
   + 如果部署在联络中心或电信环境中，则电话集成会处理会话路由、双音多频 (DTMF) 输入和媒体传输。

注意：DTMF 是指按下电话键盘上的按钮时产生的音调。在语音代理内部的流媒体和电话环境集成中，DTMF 被用作电话呼叫期间的信号输入机制，尤其是在交互式语音应答 (IVR) 系统中。DTMF 输入使代理能够：
+ 识别菜单选项（例如，“按 1 进行计费。 按 2 获得支持。”）
+ 收集数字输入（例如，账号和确认号码） PINs
+ 在呼叫流中触发工作流程或状态转换
+ 必要时从语音恢复为按键音

1. 通过 LLM 直播上下文了解原因
   + 查询被发送到代理，代理会将其与任何会话元数据（例如，呼叫者 ID、之前的上下文）一起传递给 LLM。
   + LLM 生成响应，如果交互正在进行中，则可能使用 chain-of-thought策略或多圈记忆。

1. 返回语音响应
   + 代理使用 text-to-speech (TTS) 将其响应转换为语音。
   + 它通过语音通道将音频返回给用户。

## 功能
<a name="capabilities-speech-and-voice"></a>
+ 实时语音理解和生成
+ 支持 ST I/O T 和 TTS 的多语言版本
+ 与电话或流媒体集成 APIs
+ 会话感知和回合之间的记忆切换

## 常见使用案例
<a name="common-use-cases-speech-and-voice"></a>
+ 对话式 IVR 系统
+ 虚拟接待员和预约安排员
+ 语音驱动的帮助台代理
+ 可穿戴语音助手
+ 智能家居的语音接口和无障碍工具

## 实施指导
<a name="implementation-guidance-speech-and-voice"></a>

您可以使用以下工具和以下工具来构建此模式 AWS 服务：
+ 适用于 STT 的 Amazon Lex V2 或 Amazon Transcribe
+ 适用于 TTS 的 Amazon Polly
+ 用于直播和电话的 Amazon Chime SDK、Amazon Connect 或亚马逊互动视频服务 (亚马逊 IVS) Interactive Service
+ Amazon Bedrock 用于使用 Anthropic 或其他基础 AI21模型进行推理
+ AWS Lambda 连接 STT、LLM、TTS 和会话上下文

（可选）其他增强功能可能包括以下内容：
+ 亚马逊 Kendra 或者 OpenSearch 用于情境感知型 RAG
+ 用于会话内存的 Amazon DynamoDB
+ Amazon CloudWatch 日志和可 AWS X-Ray 追溯性

## Summary
<a name="summary-speech-and-voice"></a>

语音和语音代理是通过自然对话进行交互的智能系统。通过将语音接口与 LLM 推理和实时流媒体基础设施集成，语音代理可实现无缝、可访问和可扩展的交互。