Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic permet une intelligence artificielle conversationnelle en temps réel avec entrée et sortie vocales. La section suivante couvre les fonctionnalités avancées de création d'assistants vocaux interactifs, d'automatisation du service client et d'applications conversationnelles.

Fonctionnalités principales

Amazon Nova 2 Sonic fournit les fonctionnalités suivantes :

State-of-the-art compréhension vocale en continu grâce à une API de diffusion bidirectionnelle qui permet des conversations multitours en temps réel et à faible latence.
Support multilingue avec détection et changement automatiques de langue. Des voix expressives sont proposées, y compris des voix masculines et féminines, dans les langues suivantes :
- Anglais (États-Unis, Royaume-Uni, Inde, Australie)
- Français
- Italien
- Allemand
- Espagnol
- Portugais
- Hindi
Des voix polyglottes pouvant parler n'importe laquelle des langues prises en charge pour garantir une expérience utilisateur cohérente même lorsque l'utilisateur change de langue au cours de la même session.
Robustesse au bruit de fond pour les scénarios de déploiement réels.
Robustesse aux différents accents pour les langues prises en charge.
Des expériences d'intelligence artificielle conversationnelle naturelles, semblables à celles de l'homme, avec une richesse contextuelle dans tous les langages pris en charge.
Réponse vocale adaptative qui ajuste dynamiquement la restitution en fonction de la prosodie de la parole entrée.
Prise de tour intelligente qui détecte le moment où l'utilisateur a fini de parler et le moment où l'assistant doit répondre, créant ainsi un rythme de dialogue naturel.
Gestion élégante des interruptions de l’utilisateur sans perte du contexte conversationnel.
Ancrage des connaissances dans les données d’entreprise à l’aide de la génération à enrichissement contextuel (RAG).
Appel de fonctions et prise en charge du flux de travail agentique pour créer des applications IA complexes.
Gestion asynchrone des outils qui exécute les appels aux outils tout en maintenant le flux de conversation, permettant à l'assistant de continuer à parler pendant que les outils traitent en arrière-plan.
Cross-modal prise en charge des entrées audio et textuelles au sein d'une même conversation, permettant des modèles d'interaction flexibles.
Limite de connexion de 8 minutes, avec un modèle de renouvellement de connexion et de poursuite de session disponible dans des exemples de code.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Compréhension multimodale

Prise en main