Utilisation du Speech-to-Speech modèle Amazon Nova Sonic - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation du Speech-to-Speech modèle Amazon Nova Sonic

Note

Cette documentation concerne la version 1 d'Amazon Nova. Pour le guide Amazon Nova 2 Sonic, rendez-vous sur Speech-to-Speech.

Le modèle Amazon Nova Sonic offre des interactions conversationnelles en temps réel grâce à un streaming audio bidirectionnel. Amazon Nova Sonic traite et répond à la parole en temps réel, ce qui permet des expériences conversationnelles naturelles, semblables à celles d’un être humain.

Amazon Nova Sonic propose une approche transformatrice de l’IA conversationnelle grâce à son architecture unifiée de compréhension et de génération de la parole. Ce modèle de state-of-the-art base offre des performances de premier plan en termes de prix, permettant aux entreprises de créer des expériences vocales naturelles et adaptées au contexte.

Principales capacités et fonctionnalités

  • State-of-the-art compréhension vocale en continu grâce aux fonctionnalités de l'API de diffusion bidirectionnelle qui permettent des conversations multitours en temps réel et à faible latence.

  • Des expériences d’IA conversationnelle naturelles et semblables à celles d’un être humain sont fournies avec une richesse contextuelle dans toutes les langues prises en charge.

  • Réponse vocale adaptative qui ajuste dynamiquement la restitution en fonction de la prosodie de la parole entrée.

  • Gestion élégante des interruptions de l’utilisateur sans perte du contexte conversationnel.

  • Ancrage des connaissances dans les données d’entreprise à l’aide de la génération à enrichissement contextuel (RAG).

  • Appel de fonctions et prise en charge du flux de travail agentique pour créer des applications IA complexes.

  • Robustesse face au bruit de fond pour les scénarios de déploiement dans le monde réel.

  • Prise en charge multilingue avec des voix et des styles d’expression expressifs. Des voix expressives sont proposées, y compris des voix masculines et féminines, dans cinq langues : anglais (États-Unis, Royaume-Uni), français, italien, allemand et espagnol.

  • Reconnaissance de styles d’expression variés dans toutes les langues prises en charge.

Architecture Amazon Nova Sonic

Amazon Nova Sonic met en œuvre une architecture événementielle via l’API de flux bidirectionnel, permettant des expériences conversationnelles en temps réel. Voici les principaux composants architecturaux de l’API :

  1. Diffusion bidirectionnelle d’événements : Amazon Nova Sonic utilise une connexion bidirectionnelle persistante qui permet la diffusion simultanée d’événements dans les deux sens. Contrairement aux modèles traditionnels de demande-réponse, cette approche permet ce qui suit :

    • Diffusion audio continue de l’utilisateur vers le modèle

    • Traitement et génération simultanés de la parole

    • Réponses du modèle en temps réel sans attendre la fin des énoncés

  2. Flux de communication événementiel : l’ensemble de l’interaction suit un protocole basé sur les événements dans lequel

    • Le client et le modèle échangent des événements JSON structurés

    • Les événements contrôlent le cycle de vie de la session, le streaming audio, les réponses textuelles et les interactions avec les outils

    • Chaque événement a un rôle spécifique dans le flux de conversation

L’API de flux bidirectionnel se compose de ces trois éléments principaux :

  1. Initialisation de la session : le client établit un flux bidirectionnel et envoie les événements de configuration.

  2. Diffusion audio : l’audio de l’utilisateur est capturé, encodé et diffusé en continu sous forme d’événements vers le modèle, qui traite la parole en continu.

  3. Diffusion des réponses : à mesure que l’audio arrive, le modèle envoie simultanément des réponses aux événements :

    • Transcriptions textuelles de la parole de l’utilisateur (ASR)

    • Événements d’utilisation d’outils pour l’appel de fonctions

    • Réponse textuelle du modèle

    • Morceaux audio pour la sortie vocale

Le diagramme suivant fournit une vue d’ensemble de l’API de flux bidirectionnel.

Diagramme expliquant le système de flux bidirectionnel Amazon Nova Sonic.