Utilizzo del modello di sintesi vocale di Amazon Nova Sonic - Amazon Nova

Utilizzo del modello di sintesi vocale di Amazon Nova Sonic

Il modello Amazon Nova Sonic fornisce interazioni conversazionali in tempo reale tramite streaming audio bidirezionale. Amazon Nova Sonic elabora e risponde al contenuto vocale in tempo reale non appena si verifica, consentendo esperienze di conversazione naturali e simili a quelle umane.

Amazon Nova Sonic offre un approccio trasformativo all’intelligenza artificiale conversazionale con la sua architettura unificata di comprensione e generazione dei contenuti vocali. Questo modello di base all’avanguardia vanta un rapporto prezzo-prestazioni leader del settore e consente alle aziende di creare esperienze vocali naturali e consapevoli a livello contestuale.

Funzionalità e caratteristiche chiave

  • Comprensione vocale in streaming all’avanguardia con funzionalità API di streaming bidirezionale che consentono conversazioni a più turni in tempo reale e a bassa latenza.

  • Le esperienze di intelligenza artificiale conversazionale naturali e simili a quelle umane sono fornite con una ricchezza contestuale in tutte le lingue supportate.

  • Risposta vocale adattiva che regola dinamicamente la riproduzione in base alla prosodia del discorso di input.

  • Gestione agevole delle interruzioni degli utenti senza alterare il contesto della conversazione.

  • Contestualizzazione delle conoscenze con dati aziendali grazie alla generazione potenziata da recupero dati (RAG).

  • Chiamata di funzioni e supporto del flusso di lavoro agentico per la creazione di applicazioni di IA complesse.

  • Robustezza rispetto al rumore di fondo per scenari di implementazione reali.

  • Supporto multilingue con voci e stili di discorso espressivi. Sono disponibili voci espressive, sia maschili che femminili, in cinque lingue: inglese (Stati Uniti, Regno Unito), francese, italiano, tedesco e spagnolo.

  • Riconoscimento di diversi stili di conversazione in tutte le lingue supportate.

Architettura di Amazon Nova Sonic

Amazon Nova Sonic implementa un’architettura basata sugli eventi tramite l’API di streaming bidirezionale, che consente esperienze di conversazione in tempo reale. Questi sono i principali componenti architettonici dell’API:

  1. Streaming di eventi bidirezionale: Amazon Nova Sonic utilizza una connessione bidirezionale persistente che consente lo streaming simultaneo di eventi in entrambe le direzioni. A differenza degli schemi tradizionali di richiesta-risposta, questo approccio consente le seguenti funzionalità:

    • Streaming audio continuo dall’utente al modello

    • Elaborazione e generazione simultanea del contenuto vocale

    • Risposte dei modelli in tempo reale senza attendere le enunciazioni complete

  2. Flusso di comunicazione basato sugli eventi: la completa interazione segue un protocollo basato sugli eventi in cui

    • Il client e il modello si scambiano eventi JSON strutturati

    • Gli eventi controllano il ciclo di vita della sessione, lo streaming audio, le risposte testuali e le interazioni con gli strumenti

    • Ogni evento dispone di ruoli specifici nel flusso della conversazione

L’API di streaming bidirezionale è composta da questi tre componenti principali:

  1. Inizializzazione della sessione: il client stabilisce uno streaming bidirezionale e invia gli eventi di configurazione.

  2. Streaming audio: l’audio dell’utente viene continuamente acquisito, codificato e trasmesso in streaming sotto forma di eventi al modello, che elabora continuamente il contenuto vocale.

  3. Streaming della risposta: all’arrivo dell’audio, il modello invia simultaneamente le risposte agli eventi:

    • Trascrizioni testuali del parlato dell’utente (ASR)

    • Eventi di utilizzo dello strumento per la chiamata di funzioni

    • Risposta testuale del modello

    • Blocchi audio per l’output vocale

Il diagramma seguente fornisce una panoramica di alto livello dell’API di streaming bidirezionale.

Diagramma che spiega il sistema di streaming bidirezionale di Amazon Nova Sonic.