Architecture Description Fonctionnalités Cas d’utilisation courants Directives d’implémentation Résumé

Agents vocaux et vocaux

Les agents vocaux et vocaux interagissent avec les utilisateurs par le biais de dialogues vocaux. Ces agents intègrent la reconnaissance vocale, la compréhension du langage naturel et la synthèse vocale pour permettre l'IA conversationnelle sur la téléphonie, le mobile, le Web et les plateformes intégrées.

Les agents vocaux sont particulièrement efficaces dans les environnements mains libres, en temps réel ou axés sur l'accessibilité. En combinant les interfaces de streaming avec LLM-powered le raisonnement, ils facilitent des interactions riches et dynamiques qui semblent naturelles pour les utilisateurs.

Architecture

Un agent vocal et vocal est illustré dans le schéma suivant :

Description

Reçoit une requête vocale
- L'utilisateur adresse une demande à un téléphone, à un microphone ou à un système intégré.
- Un module Speech-to-Text (STT) convertit le son en texte.
Intègre le contexte du streaming et de la téléphonie
- L'agent utilise une interface de streaming pour gérer le son I/O en temps réel.
- Si elle est déployée dans un centre d'appels ou dans un contexte de télécommunications, l'intégration de la téléphonie gère le routage des sessions, l'entrée multifréquence bicolore (DTMF) et le transport multimédia.

Remarque : Le DTMF fait référence aux tonalités générées lorsque vous appuyez sur les boutons du clavier d'un téléphone. Dans le contexte du streaming et de l'intégration du contexte téléphonique dans les agents vocaux, le DTMF est utilisé comme mécanisme d'entrée de signal lors d'un appel téléphonique, en particulier dans les systèmes de réponse vocale interactive (IVR). Les entrées DTMF permettent à l'agent de :

Reconnaissez les sélections de menu (par exemple, « Appuyez sur 1 pour la facturation »). Appuyez sur 2 pour obtenir de l'aide. »)
Collectez des entrées numériques (par exemple, des numéros de compte, des codes PIN et des numéros de confirmation)
Déclenchez des workflows ou des transitions d'état dans les flux d'appels
Passez de la parole à la tonalité tactile si nécessaire

Raisons liées au contexte du flux LLM
- La requête est envoyée à l'agent, qui la transmet, avec toutes les métadonnées de session (par exemple, l'identifiant de l'appelant, le contexte antérieur), à un LLM.
- Le LLM génère une réponse, éventuellement en utilisant une stratégie de chaîne de pensée ou une mémoire à plusieurs tours si l'interaction est en cours.
Renvoie une réponse vocale
- L'agent convertit sa réponse en parole à l'aide de la synthèse vocale (TTS).
- Il renvoie le son à l'utilisateur via un canal vocal.

Fonctionnalités

Real-time compréhension et génération de la parole
Multilingue I/O avec support STT et TTS
Intégration aux API de téléphonie ou de streaming
Sensibilisation aux sessions et transfert de mémoire entre les tours

Cas d’utilisation courants

Systèmes IVR conversationnels
Réceptionnistes et planificateurs de rendez-vous virtuels
Voice-driven agents du service d'assistance
Assistants vocaux portables
Interfaces vocales pour maisons intelligentes et outils d'accessibilité

Directives d’implémentation

Vous pouvez créer ce modèle à l'aide des outils suivants et Services AWS :

Amazon Lex V2 ou Amazon Transcribe pour STT
Amazon Polly pour TTS
Amazon Chime SDK, Amazon Connect Customer ou Amazon Interactive Video Service (Amazon IVS) pour le streaming et la téléphonie
Amazon Bedrock pour raisonner avec Anthropic, AI21 ou d'autres modèles de base
AWS Lambda pour connecter STT, LLM, TTS et le contexte de session

(Facultatif) Les améliorations supplémentaires peuvent inclure les suivantes :

Amazon Kendra ou OpenSearch pour un RAG sensible au contexte
Amazon DynamoDB pour la mémoire de session
Amazon CloudWatch Logs et AWS X-Ray pour la traçabilité

Résumé

Les agents vocaux et vocaux sont des systèmes intelligents qui interagissent par le biais de conversations naturelles. En intégrant les interfaces vocales au raisonnement LLM et à l'infrastructure de streaming en temps réel, les agents vocaux permettent des interactions fluides, accessibles et évolutives.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Agents de codage

Agents d'orchestration des flux de travail