View a markdown version of this page

Agents vocaux et vocaux - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Agents vocaux et vocaux

Les agents vocaux et vocaux interagissent avec les utilisateurs par le biais de dialogues vocaux. Ces agents intègrent la reconnaissance vocale, la compréhension du langage naturel et la synthèse vocale pour permettre l'IA conversationnelle sur la téléphonie, le mobile, le Web et les plateformes intégrées.

Les agents vocaux sont particulièrement efficaces dans les environnements mains libres, en temps réel ou axés sur l'accessibilité. En combinant des interfaces de streaming avec un raisonnement basé sur le LLM, ils facilitent des interactions riches et dynamiques qui semblent naturelles pour les utilisateurs.

Architecture

Un agent vocal et vocal est illustré dans le schéma suivant :

Agents vocaux et vocaux.

Description

  1. Reçoit une requête vocale

    • L'utilisateur adresse une demande à un téléphone, à un microphone ou à un système intégré.

    • Un module speech-to-text (STT) convertit l'audio en texte.

  2. Intègre le contexte du streaming et de la téléphonie

    • L'agent utilise une interface de streaming pour gérer le son I/O en temps réel.

    • Si elle est déployée dans un centre d'appels ou dans un contexte de télécommunications, l'intégration de la téléphonie gère le routage des sessions, l'entrée multifréquence bicolore (DTMF) et le transport multimédia.

Remarque : Le DTMF fait référence aux tonalités générées lorsque vous appuyez sur les boutons du clavier d'un téléphone. Dans le contexte du streaming et de l'intégration du contexte téléphonique dans les agents vocaux, le DTMF est utilisé comme mécanisme d'entrée de signal lors d'un appel téléphonique, en particulier dans les systèmes de réponse vocale interactive (IVR). Les entrées DTMF permettent à l'agent de :

  • Reconnaissez les sélections de menu (par exemple, « Appuyez sur 1 pour la facturation »). Appuyez sur 2 pour obtenir de l'aide. »)

  • Collectez des entrées numériques (par exemple, des numéros de compte et PINs des numéros de confirmation)

  • Déclenchez des workflows ou des transitions d'état dans les flux d'appels

  • Passez de la parole à la tonalité tactile si nécessaire

  1. Raisons liées au contexte du flux LLM

    • La requête est envoyée à l'agent, qui la transmet, avec toutes les métadonnées de session (par exemple, l'identifiant de l'appelant, le contexte antérieur), à un LLM.

    • Le LLM génère une réponse, éventuellement en utilisant une chain-of-thought stratégie ou une mémoire multitours si l'interaction est en cours.

  2. Renvoie une réponse vocale

    • L'agent convertit sa réponse en parole à l'aide de text-to-speech (TTS).

    • Il renvoie le son à l'utilisateur via un canal vocal.

Fonctionnalités

  • Compréhension et génération de la parole en temps réel

  • Multilingue I/O avec support STT et TTS

  • Intégration à la téléphonie ou au streaming APIs

  • Sensibilisation à la session et transfert de mémoire entre les tours

Cas d’utilisation courants

  • Systèmes IVR conversationnels

  • Réceptionnistes et planificateurs de rendez-vous virtuels

  • Agents du service d'assistance pilotés par la voix

  • Assistants vocaux portables

  • Interfaces vocales pour maisons intelligentes et outils d'accessibilité

Directives d’implémentation

Vous pouvez créer ce modèle à l'aide des outils suivants et Services AWS :

  • Amazon Lex V2 ou Amazon Transcribe pour STT

  • Amazon Polly pour TTS

  • Amazon Chime SDK, Amazon Connect ou Amazon Interactive Video Service (Amazon IVS) pour le streaming et la téléphonie

  • Amazon Bedrock pour raisonner avec Anthropic ou d'autres modèles de base AI21

  • AWS Lambda pour connecter STT, LLM, TTS et le contexte de session

(Facultatif) Les améliorations supplémentaires peuvent inclure les suivantes :

  • Amazon Kendra ou OpenSearch pour un RAG sensible au contexte

  • Amazon DynamoDB pour la mémoire de session

  • Amazon CloudWatch Logs et AWS X-Ray pour la traçabilité

Résumé

Les agents vocaux et vocaux sont des systèmes intelligents qui interagissent par le biais de conversations naturelles. En intégrant les interfaces vocales au raisonnement LLM et à l'infrastructure de streaming en temps réel, les agents vocaux permettent des interactions fluides, accessibles et évolutives.