Architecture Description Funzionalità Casi di utilizzo comune Guida all’implementazione Riepilogo

Agenti vocali e vocali

Gli agenti vocali e vocali interagiscono con gli utenti attraverso il dialogo vocale. Questi agenti integrano il riconoscimento vocale, la comprensione del linguaggio naturale e la sintesi vocale per consentire l'intelligenza artificiale conversazionale su telefonia, dispositivi mobili, web e piattaforme integrate.

Gli agenti vocali sono particolarmente efficaci in ambienti a mani libere, in tempo reale o basati sull'accessibilità. Combinando interfacce di streaming con il LLM-powered ragionamento, facilitano interazioni ricche e dinamiche che risultano naturali per gli utenti.

Architecture

Un agente vocale e vocale è illustrato nel diagramma seguente:

Description

Riceve una richiesta vocale
- L'utente invia una richiesta a un telefono, un microfono o un sistema integrato.
- Un modulo speech-to-text (STT) converte l'audio in testo.
Integra il contesto di streaming e telefonia
- L'agente utilizza un'interfaccia di streaming per gestire l'audio I/O in tempo reale.
- Se viene implementata in un contact center o in un contesto di telecomunicazioni, l'integrazione della telefonia gestisce il routing delle sessioni, l'input multifrequenza a due toni (DTMF) e il trasporto multimediale.

Nota: DTMF si riferisce ai toni generati quando si premono i pulsanti sulla tastiera di un telefono. Nel contesto dell'integrazione del contesto di streaming e telefonia negli agenti vocali, il DTMF viene utilizzato come meccanismo di immissione del segnale durante una telefonata, in particolare nei sistemi di risposta vocale interattiva (IVR). Gli ingressi DTMF consentono all'agente di:

Riconoscere le selezioni del menu (ad esempio, «Premi 1» per la fatturazione). Premi 2 per ricevere assistenza.»)
Raccogli input numerici (ad esempio numeri di conto, PIN e numeri di conferma)
Attiva flussi di lavoro o transizioni di stato nei flussi di chiamata
Passa dalla voce al tono tattile quando necessario

Motivi tramite il contesto del flusso LLM
- La query viene inviata all'agente, che la trasmette, insieme a tutti i metadati della sessione (ad esempio, ID chiamante, contesto precedente), a un LLM.
- L'LLM genera una risposta, possibilmente utilizzando una strategia di catena di pensiero o una memoria a più turni se l'interazione è in corso.
Restituisce una risposta vocale
- L'agente converte la sua risposta in voce utilizzando la sintesi vocale (TTS).
- Restituisce l'audio all'utente tramite un canale vocale.

Funzionalità

Real-time comprensione e generazione del parlato
Multilingue I/O con supporto STT e TTS
Integrazione con API di telefonia o streaming
Consapevolezza della sessione e trasferimento della memoria tra un turno e l'altro

Casi di utilizzo comune

Sistemi IVR conversazionali
Addetti alla reception e programmatori di appuntamenti virtuali
Voice-driven agenti dell'helpdesk
assistenti vocali indossabili
Interfacce vocali per case intelligenti e strumenti di accessibilità

Guida all’implementazione

È possibile creare questo modello utilizzando i seguenti strumenti e: Servizi AWS

Amazon Lex V2 o Amazon Transcribe per STT
Amazon Polly per TTS
Amazon Chime SDK, Amazon Connect Customer o Amazon Interactive Video Service (Amazon IVS) per streaming e telefonia
Amazon Bedrock per ragionare con Anthropic, AI21 o altri modelli di base
AWS Lambda per connettere STT, LLM, TTS e il contesto della sessione

(Facoltativo) I miglioramenti aggiuntivi possono includere quanto segue:

Amazon Kendra OpenSearch o per RAG sensibile al contesto
Amazon DynamoDB per la memoria di sessione
Amazon CloudWatch Logs e AWS X-Ray per la tracciabilità

Riepilogo

Gli agenti vocali e vocali sono sistemi intelligenti che interagiscono attraverso conversazioni naturali. Integrando le interfacce vocali con il ragionamento LLM e l'infrastruttura di streaming in tempo reale, gli agenti vocali consentono interazioni fluide, accessibili e scalabili.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Agenti di codifica

Agenti di orchestrazione del flusso di lavoro