View a markdown version of this page

插话 - Amazon Nova

插话

用户可通过插话功能打断正在说话的人工智能助手,就像在人类自然对话中一样。用户无需等待助手播报完毕,即可插入新信息、更正或澄清此前表述、切换对话主题,或在获取足够信息后直接中止助手输出。由此打造更自然、响应更灵敏的对话体验。

下图展示了完整的插话对话流程:

Amazon Nova 2 Sonic 如何处理插话

Amazon Nova 2 Sonic 旨在优雅地处理各种中断场景。当用户在助手回复过程中开始说话时,系统将立即停止生成当前回复,保留完整对话上下文,向客户端发送中断信号,并开始处理新的用户输入。

上下文保留:即便被打断,Nova Sonic 仍会保留打断前的对话内容、当前讨论主题、对话历史及此前轮次中的相关上下文信息。这样可以确保对话连贯自然。

客户端实现要求

虽然 Amazon Nova 2 Sonic 在服务器端处理插话,但您需要实现客户端逻辑才能获得完整的体验。

音频队列挑战:音频生成速度快于播放速度。这意味着:

  • Nova Sonic 可以快速生成音频块

  • 客户端会接收这些音频块并对其进行排队

  • 客户端会以正常的说话速度播放这些音频

  • 当插话被触发时,队列中已有待播放的音频

客户端所需逻辑:应用程序必须处理四个关键步骤:

  1. 检测中断信号:监听来自 Nova Sonic 的中断事件,收到后立即响应。

  2. 停止当前播放:暂停正在播放的音频,终止所有处于播放中的音频。

  3. 清空音频队列:移除所有已排队的音频片段,并丢弃来自被中断回复的缓冲音频。

  4. 启动新音频播放:开始播放新接收的音频,恢复正常播放流程。