Uso del modelo de voz a voz de Amazon Nova Sonic
El modelo Amazon Nova Sonic proporciona interacciones de conversación en tiempo real a través de la transmisión de audio bidireccional. Amazon Nova Sonic procesa y responde a la voz en tiempo real a medida que se produce, lo que permite experiencias de conversación naturales y similares a las humanas.
Amazon Nova Sonic ofrece un enfoque transformador de la IA conversacional con su arquitectura unificada de comprensión y generación de voz. Este modelo fundacional de última generación presenta una relación precio-rendimiento líder en el sector, lo que permite que las empresas creen experiencias de voz que suenen naturales y sean conscientes del contexto.
Características y funciones básicas
-
Comprensión de transmisión de voz de última generación con capacidades de API de transmisión bidireccional que permiten conversaciones en tiempo real y de baja latencia en varios turnos.
-
Las experiencias de IA conversacional naturales y similares a las humanas cuentan con una riqueza contextual en todos los idiomas compatibles.
-
Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.
-
Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.
-
Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).
-
Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.
-
Claridad frente al ruido de fondo para situaciones de implementación en el mundo real.
-
Soporte multilingüe con voces y estilos de habla expresivos. Se ofrecen voces expresivas, tanto masculinas como femeninas, en cinco idiomas: inglés (EE. UU., Reino Unido), francés, italiano, alemán y español.
-
Reconocimiento de diversos estilos de habla en todos los idiomas compatibles.
Arquitectura de Amazon Nova Sonic
Amazon Nova Sonic implementa una arquitectura basada en eventos a través de la API de transmisión bidireccional, lo que permite experiencias de conversación en tiempo real. Estos son los componentes arquitectónicos clave de la API:
-
Transmisión bidireccional de eventos: Amazon Nova Sonic utiliza una conexión bidireccional persistente que permite la transmisión simultánea de eventos en ambas direcciones. A diferencia de los patrones tradicionales de solicitud-respuesta, este enfoque permite lo siguiente:
transmisión continua de audio del usuario al modelo,
procesamiento y generación de voz simultáneos,
respuestas del modelo en tiempo real sin esperar a que se completen los enunciados.
-
Flujo de comunicación basado en eventos: toda la interacción sigue un protocolo basado en eventos en el que sucede lo siguiente:
El cliente y el modelo intercambian eventos JSON estructurados.
Los eventos controlan el ciclo de vida de la sesión, la transmisión de audio, las respuestas de texto y las interacciones con herramientas.
Cada evento tiene funciones específicas en el flujo de la conversación.
La API de transmisión bidireccional consta de estos tres componentes principales:
-
Inicialización de la sesión: el cliente establece un flujo bidireccional y envía los eventos de configuración.
-
Transmisión de audio: el audio del usuario se captura, codifica y transmite de forma continua como eventos al modelo, que procesa continuamente la voz.
-
Transmisión de respuestas: a medida que llega el audio, el modelo envía simultáneamente respuestas a los eventos:
transcripciones de texto de la voz del usuario (ASR),
eventos de uso de herramientas para llamadas a funciones,
respuesta de texto del modelo,
fragmentos de audio para salida hablada.
En el siguiente diagrama, se proporciona una descripción general de la API de transmisión bidireccional.
