Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Agents vocaux et vocaux
Les agents vocaux et vocaux interagissent avec les utilisateurs par le biais de dialogues vocaux. Ces agents intègrent la reconnaissance vocale, la compréhension du langage naturel et la synthèse vocale pour permettre l'IA conversationnelle sur la téléphonie, le mobile, le Web et les plateformes intégrées.
Les agents vocaux sont particulièrement efficaces dans les environnements mains libres, en temps réel ou axés sur l'accessibilité. En combinant les interfaces de streaming avec LLM-powered le raisonnement, ils facilitent des interactions riches et dynamiques qui semblent naturelles pour les utilisateurs.
Architecture
Un agent vocal et vocal est illustré dans le schéma suivant :
Description
-
Reçoit une requête vocale
-
L'utilisateur adresse une demande à un téléphone, à un microphone ou à un système intégré.
-
Un module Speech-to-Text (STT) convertit le son en texte.
-
-
Intègre le contexte du streaming et de la téléphonie
-
L'agent utilise une interface de streaming pour gérer le son I/O en temps réel.
-
Si elle est déployée dans un centre d'appels ou dans un contexte de télécommunications, l'intégration de la téléphonie gère le routage des sessions, l'entrée multifréquence bicolore (DTMF) et le transport multimédia.
-
Remarque : Le DTMF fait référence aux tonalités générées lorsque vous appuyez sur les boutons du clavier d'un téléphone. Dans le contexte du streaming et de l'intégration du contexte téléphonique dans les agents vocaux, le DTMF est utilisé comme mécanisme d'entrée de signal lors d'un appel téléphonique, en particulier dans les systèmes de réponse vocale interactive (IVR). Les entrées DTMF permettent à l'agent de :
-
Reconnaissez les sélections de menu (par exemple, « Appuyez sur 1 pour la facturation »). Appuyez sur 2 pour obtenir de l'aide. »)
-
Collectez des entrées numériques (par exemple, des numéros de compte, des codes PIN et des numéros de confirmation)
-
Déclenchez des workflows ou des transitions d'état dans les flux d'appels
-
Passez de la parole à la tonalité tactile si nécessaire
-
Raisons liées au contexte du flux LLM
-
La requête est envoyée à l'agent, qui la transmet, avec toutes les métadonnées de session (par exemple, l'identifiant de l'appelant, le contexte antérieur), à un LLM.
-
Le LLM génère une réponse, éventuellement en utilisant une stratégie de chaîne de pensée ou une mémoire à plusieurs tours si l'interaction est en cours.
-
-
Renvoie une réponse vocale
-
L'agent convertit sa réponse en parole à l'aide de la synthèse vocale (TTS).
-
Il renvoie le son à l'utilisateur via un canal vocal.
-
Fonctionnalités
-
Real-time compréhension et génération de la parole
-
Multilingue I/O avec support STT et TTS
-
Intégration aux API de téléphonie ou de streaming
-
Sensibilisation aux sessions et transfert de mémoire entre les tours
Cas d’utilisation courants
-
Systèmes IVR conversationnels
-
Réceptionnistes et planificateurs de rendez-vous virtuels
-
Voice-driven agents du service d'assistance
-
Assistants vocaux portables
-
Interfaces vocales pour maisons intelligentes et outils d'accessibilité
Directives d’implémentation
Vous pouvez créer ce modèle à l'aide des outils suivants et Services AWS :
-
Amazon Lex V2 ou Amazon Transcribe pour STT
-
Amazon Polly pour TTS
-
Amazon Chime SDK, Amazon Connect Customer ou Amazon Interactive Video Service (Amazon IVS) pour le streaming et la téléphonie
-
Amazon Bedrock pour raisonner avec Anthropic, AI21 ou d'autres modèles de base
-
AWS Lambda pour connecter STT, LLM, TTS et le contexte de session
(Facultatif) Les améliorations supplémentaires peuvent inclure les suivantes :
-
Amazon Kendra ou OpenSearch pour un RAG sensible au contexte
-
Amazon DynamoDB pour la mémoire de session
-
Amazon CloudWatch Logs et AWS X-Ray pour la traçabilité
Résumé
Les agents vocaux et vocaux sont des systèmes intelligents qui interagissent par le biais de conversations naturelles. En intégrant les interfaces vocales au raisonnement LLM et à l'infrastructure de streaming en temps réel, les agents vocaux permettent des interactions fluides, accessibles et évolutives.