语音转语音(Amazon Nova 2 Sonic)
Amazon Nova 2 Sonic 支持带有语音输入和输出的实时对话式人工智能。以下章节介绍用于构建交互式语音助手、客户服务自动化系统及对话式应用程序的高级功能。
主要特征
Amazon Nova 2 Sonic 提供以下功能:
-
先进的流式语音理解技术,具有双向流 API,可实现实时、低延迟的多轮对话。
-
具有自动语言检测与切换功能的多语言支持。系统提供具备丰富表现力的语音,包含男性音色与女性音色,支持以下语言:
-
英语(美国、英国、印度、澳大利亚)
-
法语
-
意大利语
-
德语
-
西班牙语
-
葡萄牙语
-
印地语
-
-
支持多语言的合成语音,可流畅使用全部支持语言,即使用户在同一会话中切换语言,也能提供连贯一致的用户体验。
-
针对真实部署场景具备出色的抗背景噪声能力。
-
对各支持语言的不同口音具备良好的适应能力。
-
为所有支持语言提供上下文感知丰富、自然拟人的对话式人工智能体验。
-
自适应语音回复,可根据输入语音的韵律动态调整传送方式。
-
智能对话交互,可精准识别用户语句结束时机与助手应答节点,打造自然流畅的对话节奏。
-
妥善处理用户打断情况,不会丢弃对话上下文。
-
使用检索增强生成(RAG)技术,基于企业数据进行知识基础构建。
-
支持函数调用和座席工作流程,用于构建复杂的人工智能应用程序。
-
异步工具处理,在维持对话流畅性的同时执行工具调用,使助手可在工具于后台处理期间持续发言。
-
跨模态输入支持同一对话中的音频和文本输入,实现灵活的交互模式。
-
连接时长限制为 8 分钟,代码示例中提供了连接续约与会话延续方案。