Agenti vocali e vocali - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Agenti vocali e vocali

Gli agenti vocali e vocali interagiscono con gli utenti attraverso il dialogo vocale. Questi agenti integrano il riconoscimento vocale, la comprensione del linguaggio naturale e la sintesi vocale per consentire l'intelligenza artificiale conversazionale su telefonia, dispositivi mobili, web e piattaforme integrate.

Gli agenti vocali sono particolarmente efficaci in ambienti a mani libere, in tempo reale o basati sull'accessibilità. Combinando interfacce di streaming con ragionamenti basati su LLM, facilitano interazioni ricche e dinamiche che risultano naturali per gli utenti.

Architecture

Un agente vocale e vocale è illustrato nel diagramma seguente:

Agenti vocali e vocali.

Description

  1. Riceve una richiesta vocale

    • L'utente invia una richiesta a un telefono, un microfono o un sistema integrato.

    • Un modulo speech-to-text (STT) converte l'audio in testo.

  2. Integra il contesto di streaming e telefonia

    • L'agente utilizza un'interfaccia di streaming per gestire l'audio I/O in tempo reale.

    • Se viene implementata in un contact center o in un contesto di telecomunicazioni, l'integrazione della telefonia gestisce il routing delle sessioni, l'input multifrequenza a due toni (DTMF) e il trasporto multimediale.

Nota: DTMF si riferisce ai toni generati quando si premono i pulsanti sulla tastiera di un telefono. Nel contesto dell'integrazione del contesto di streaming e telefonia negli agenti vocali, il DTMF viene utilizzato come meccanismo di immissione del segnale durante una telefonata, in particolare nei sistemi di risposta vocale interattiva (IVR). Gli ingressi DTMF consentono all'agente di:

  • Riconoscere le selezioni del menu (ad esempio, «Premi 1» per la fatturazione). Premi 2 per ricevere assistenza.»)

  • Raccogli input numerici (ad esempio numeri di conto e numeri di conferma) PINs

  • Attiva flussi di lavoro o transizioni di stato nei flussi di chiamata

  • Passa dalla voce al tono tattile quando necessario

  1. Motivi tramite il contesto del flusso LLM

    • La query viene inviata all'agente, che la trasmette, insieme a tutti i metadati della sessione (ad esempio, ID chiamante, contesto precedente), a un LLM.

    • L'LLM genera una risposta, possibilmente utilizzando una chain-of-thought strategia o una memoria a più turni se l'interazione è in corso.

  2. Restituisce una risposta vocale

    • L'agente converte la sua risposta in voce utilizzando text-to-speech (TTS).

    • Restituisce l'audio all'utente tramite un canale vocale.

Funzionalità

  • Comprensione e generazione del parlato in tempo reale

  • Multilingue I/O con supporto STT e TTS

  • Integrazione con telefonia o streaming APIs

  • Consapevolezza della sessione e trasferimento della memoria tra un turno e l'altro

Casi di utilizzo comune

  • Sistemi IVR conversazionali

  • Addetti alla reception e programmatori di appuntamenti virtuali

  • Agenti dell'helpdesk con comandi vocali

  • Assistenti vocali indossabili

  • Interfacce vocali per case intelligenti e strumenti di accessibilità

Guida all’implementazione

È possibile creare questo modello utilizzando i seguenti strumenti e: Servizi AWS

  • Amazon Lex V2 o Amazon Transcribe per STT

  • Amazon Polly per TTS

  • Amazon Chime SDK, Amazon Connect o Amazon Interactive Video Service (Amazon IVS) per streaming e telefonia

  • Amazon Bedrock per ragionare con Anthropic o altri AI21 modelli di base

  • AWS Lambda per connettere STT, LLM, TTS e il contesto della sessione

(Facoltativo) I miglioramenti aggiuntivi possono includere quanto segue:

  • Amazon Kendra OpenSearch o per RAG sensibile al contesto

  • Amazon DynamoDB per la memoria di sessione

  • Amazon CloudWatch Logs e AWS X-Ray per la tracciabilità

Riepilogo

Gli agenti vocali e vocali sono sistemi intelligenti che interagiscono attraverso conversazioni naturali. Integrando le interfacce vocali con il ragionamento LLM e l'infrastruttura di streaming in tempo reale, gli agenti vocali consentono interazioni fluide, accessibili e scalabili.