View a markdown version of this page

Barge-in - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Barge-in

Il barge-in consente agli utenti di interrompere l'assistente AI mentre sta parlando, proprio come nelle conversazioni umane naturali. Invece di aspettare che l'assistente finisca, gli utenti possono intervenire fornendo nuove informazioni, correggere o chiarire la dichiarazione precedente, reindirizzare la conversazione su un argomento diverso o semplicemente interrompere l'assistente quando hanno sentito abbastanza. Questo crea un'esperienza di conversazione più naturale e reattiva.

Il diagramma seguente illustra l'intero flusso di conversazione introduttivo:

In che modo Amazon Nova 2 Sonic gestisce i barge-in

Amazon Nova 2 Sonic è progettato per gestire le interruzioni con garbo. Quando l'utente inizia a parlare durante una risposta, il sistema smette immediatamente di generare la risposta corrente, mantiene il contesto della conversazione completo, invia un segnale di interruzione al client e inizia a elaborare il nuovo input dell'utente.

Conservazione del contesto: anche in caso di interruzione, Nova Sonic ricorda ciò che è stato detto prima dell'interruzione, l'argomento discusso, la cronologia delle conversazioni e qualsiasi contesto rilevante dei turni precedenti. Questo assicura che la conversazione rimanga coerente e naturale.

Requisiti di implementazione lato client

Sebbene Amazon Nova 2 Sonic gestisca il barge-in lato server, devi implementare la logica lato client per un'esperienza completa.

La sfida della coda audio: la generazione dell'audio è più veloce della velocità di riproduzione. Ciò significa che:

  • Nova Sonic genera rapidamente blocchi audio

  • Il tuo client riceve e mette in coda questi blocchi

  • Il client li riproduce alla normale velocità di conversazione

  • Quando si verifica un barge-in, l'audio è già in coda per la riproduzione

Logica lato client richiesta: l'applicazione deve gestire quattro passaggi chiave:

  1. Rileva il segnale di interruzione: ascolta l'evento di interruzione di Nova Sonic e reagisci immediatamente quando viene ricevuto.

  2. Interrompi la riproduzione corrente: mette in pausa l'audio attualmente in riproduzione e interrompe l'audio a metà riproduzione.

  3. Cancella la coda audio: rimuovi tutti i blocchi audio in coda ed elimina l'audio bufferizzato dalla risposta interrotta.

  4. Avvia nuovo audio: inizia a riprodurre l'audio appena ricevuto e riprendi il normale flusso di riproduzione.