View a markdown version of this page

语音和语音代理 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

语音和语音代理

语音和语音代理通过语音对话与用户互动。这些代理集成了语音识别、自然语言理解和语音合成,可在电话、移动、网络和嵌入式平台上实现对话式 AI。

语音代理在免提、实时或可访问性驱动的环境中特别有效。通过将流媒体接口与LLM支持的推理相结合,它们促进了用户感觉自然的丰富、动态的互动。

架构

语音和语音代理如下图所示:

语音和语音代理。

说明

  1. 收到语音查询

    • 用户向手机、麦克风或嵌入式系统发出请求。

    • speech-to-text(STT) 模块将音频转换为文本。

  2. 集成了流媒体和电话环境

    • 代理使用流媒体接口实时管理音频 I/O 。

    • 如果部署在联络中心或电信环境中,则电话集成会处理会话路由、双音多频 (DTMF) 输入和媒体传输。

注意:DTMF 是指按下电话键盘上的按钮时产生的音调。在语音代理内部的流媒体和电话环境集成中,DTMF 被用作电话呼叫期间的信号输入机制,尤其是在交互式语音应答 (IVR) 系统中。DTMF 输入使代理能够:

  • 识别菜单选项(例如,“按 1 进行计费。 按 2 获得支持。”)

  • 收集数字输入(例如,账号和确认号码) PINs

  • 在呼叫流中触发工作流程或状态转换

  • 必要时从语音恢复为按键音

  1. 通过 LLM 直播上下文了解原因

    • 查询被发送到代理,代理会将其与任何会话元数据(例如,呼叫者 ID、之前的上下文)一起传递给 LLM。

    • LLM 生成响应,如果交互正在进行中,则可能使用 chain-of-thought策略或多圈记忆。

  2. 返回语音响应

    • 代理使用 text-to-speech (TTS) 将其响应转换为语音。

    • 它通过语音通道将音频返回给用户。

功能

  • 实时语音理解和生成

  • 支持 ST I/O T 和 TTS 的多语言版本

  • 与电话或流媒体集成 APIs

  • 会话感知和回合之间的记忆切换

常见使用案例

  • 对话式 IVR 系统

  • 虚拟接待员和预约安排员

  • 语音驱动的帮助台代理

  • 可穿戴语音助手

  • 智能家居的语音接口和无障碍工具

实施指导

您可以使用以下工具和以下工具来构建此模式 AWS 服务:

  • 适用于 STT 的 Amazon Lex V2 或 Amazon Transcribe

  • 适用于 TTS 的 Amazon Polly

  • 用于直播和电话的 Amazon Chime SDK、Amazon Connect 或亚马逊互动视频服务 (亚马逊 IVS) Interactive Service

  • Amazon Bedrock 用于使用 Anthropic 或其他基础 AI21模型进行推理

  • AWS Lambda 连接 STT、LLM、TTS 和会话上下文

(可选)其他增强功能可能包括以下内容:

  • 亚马逊 Kendra 或者 OpenSearch 用于情境感知型 RAG

  • 用于会话内存的 Amazon DynamoDB

  • Amazon CloudWatch 日志和可 AWS X-Ray 追溯性

Summary

语音和语音代理是通过自然对话进行交互的智能系统。通过将语音接口与 LLM 推理和实时流媒体基础设施集成,语音代理可实现无缝、可访问和可扩展的交互。