Utilisation du modèle Amazon Nova Sonic Speech-to-Speech
Le modèle Amazon Nova Sonic offre des interactions conversationnelles en temps réel grâce à un streaming audio bidirectionnel. Amazon Nova Sonic traite et répond à la parole en temps réel, ce qui permet des expériences conversationnelles naturelles, semblables à celles d’un être humain.
Amazon Nova Sonic propose une approche transformatrice de l’IA conversationnelle grâce à son architecture unifiée de compréhension et de génération de la parole. Ce modèle de fondation de pointe offre un rapport qualité-prix inégalé dans le secteur, permettant aux entreprises de créer des expériences vocales qui restent naturelles et contextuelles.
Principales capacités et fonctionnalités
-
Compréhension vocale en streaming de pointe avec des capacités API de flux bidirectionnel qui permettent des conversations multi-tours en temps réel et à faible latence.
-
Des expériences d’IA conversationnelle naturelles et semblables à celles d’un être humain sont fournies avec une richesse contextuelle dans toutes les langues prises en charge.
-
Réponse vocale adaptative qui ajuste dynamiquement la restitution en fonction de la prosodie de la parole entrée.
-
Gestion élégante des interruptions de l’utilisateur sans perte du contexte conversationnel.
-
Ancrage des connaissances dans les données d’entreprise à l’aide de la génération à enrichissement contextuel (RAG).
-
Appel de fonctions et prise en charge du flux de travail agentique pour créer des applications IA complexes.
-
Robustesse face au bruit de fond pour les scénarios de déploiement dans le monde réel.
-
Prise en charge multilingue avec des voix et des styles d’expression expressifs. Des voix expressives sont proposées, y compris des voix masculines et féminines, dans cinq langues : anglais (États-Unis, Royaume-Uni), français, italien, allemand et espagnol.
-
Reconnaissance de styles d’expression variés dans toutes les langues prises en charge.
Rubriques
Architecture Amazon Nova Sonic
Amazon Nova Sonic met en œuvre une architecture événementielle via l’API de flux bidirectionnel, permettant des expériences conversationnelles en temps réel. Voici les principaux composants architecturaux de l’API :
-
Diffusion bidirectionnelle d’événements : Amazon Nova Sonic utilise une connexion bidirectionnelle persistante qui permet la diffusion simultanée d’événements dans les deux sens. Contrairement aux modèles traditionnels de demande-réponse, cette approche permet ce qui suit :
Diffusion audio continue de l’utilisateur vers le modèle
Traitement et génération simultanés de la parole
Réponses du modèle en temps réel sans attendre la fin des énoncés
-
Flux de communication événementiel : l’ensemble de l’interaction suit un protocole basé sur les événements dans lequel
Le client et le modèle échangent des événements JSON structurés
Les événements contrôlent le cycle de vie de la session, le streaming audio, les réponses textuelles et les interactions avec les outils
Chaque événement a un rôle spécifique dans le flux de conversation
L’API de flux bidirectionnel se compose de ces trois éléments principaux :
-
Initialisation de la session : le client établit un flux bidirectionnel et envoie les événements de configuration.
-
Diffusion audio : l’audio de l’utilisateur est capturé, encodé et diffusé en continu sous forme d’événements vers le modèle, qui traite la parole en continu.
-
Diffusion des réponses : à mesure que l’audio arrive, le modèle envoie simultanément des réponses aux événements :
Transcriptions textuelles de la parole de l’utilisateur (ASR)
Événements d’utilisation d’outils pour l’appel de fonctions
Réponse textuelle du modèle
Morceaux audio pour la sortie vocale
Le diagramme suivant fournit une vue d’ensemble de l’API de flux bidirectionnel.