Uso del modelo de voz a voz de Amazon Nova Sonic - Amazon Nova

Uso del modelo de voz a voz de Amazon Nova Sonic

El modelo Amazon Nova Sonic proporciona interacciones de conversación en tiempo real a través de la transmisión de audio bidireccional. Amazon Nova Sonic procesa y responde a la voz en tiempo real a medida que se produce, lo que permite experiencias de conversación naturales y similares a las humanas.

Amazon Nova Sonic ofrece un enfoque transformador de la IA conversacional con su arquitectura unificada de comprensión y generación de voz. Este modelo fundacional de última generación presenta una relación precio-rendimiento líder en el sector, lo que permite que las empresas creen experiencias de voz que suenen naturales y sean conscientes del contexto.

Características y funciones básicas

  • Comprensión de transmisión de voz de última generación con capacidades de API de transmisión bidireccional que permiten conversaciones en tiempo real y de baja latencia en varios turnos.

  • Las experiencias de IA conversacional naturales y similares a las humanas cuentan con una riqueza contextual en todos los idiomas compatibles.

  • Respuesta de voz adaptativa que ajusta de forma dinámica la entrega en función de la prosodia de la voz de entrada.

  • Manejo elegante de las interrupciones de los usuarios sin perder el contexto conversacional.

  • Fundamentación del conocimiento con datos empresariales mediante generación aumentada por recuperación (RAG).

  • Compatibilidad con llamadas a funciones y flujo de trabajo de agentes para crear aplicaciones de IA complejas.

  • Claridad frente al ruido de fondo para situaciones de implementación en el mundo real.

  • Soporte multilingüe con voces y estilos de habla expresivos. Se ofrecen voces expresivas, tanto masculinas como femeninas, en cinco idiomas: inglés (EE. UU., Reino Unido), francés, italiano, alemán y español.

  • Reconocimiento de diversos estilos de habla en todos los idiomas compatibles.

Arquitectura de Amazon Nova Sonic

Amazon Nova Sonic implementa una arquitectura basada en eventos a través de la API de transmisión bidireccional, lo que permite experiencias de conversación en tiempo real. Estos son los componentes arquitectónicos clave de la API:

  1. Transmisión bidireccional de eventos: Amazon Nova Sonic utiliza una conexión bidireccional persistente que permite la transmisión simultánea de eventos en ambas direcciones. A diferencia de los patrones tradicionales de solicitud-respuesta, este enfoque permite lo siguiente:

    • transmisión continua de audio del usuario al modelo,

    • procesamiento y generación de voz simultáneos,

    • respuestas del modelo en tiempo real sin esperar a que se completen los enunciados.

  2. Flujo de comunicación basado en eventos: toda la interacción sigue un protocolo basado en eventos en el que sucede lo siguiente:

    • El cliente y el modelo intercambian eventos JSON estructurados.

    • Los eventos controlan el ciclo de vida de la sesión, la transmisión de audio, las respuestas de texto y las interacciones con herramientas.

    • Cada evento tiene funciones específicas en el flujo de la conversación.

La API de transmisión bidireccional consta de estos tres componentes principales:

  1. Inicialización de la sesión: el cliente establece un flujo bidireccional y envía los eventos de configuración.

  2. Transmisión de audio: el audio del usuario se captura, codifica y transmite de forma continua como eventos al modelo, que procesa continuamente la voz.

  3. Transmisión de respuestas: a medida que llega el audio, el modelo envía simultáneamente respuestas a los eventos:

    • transcripciones de texto de la voz del usuario (ASR),

    • eventos de uso de herramientas para llamadas a funciones,

    • respuesta de texto del modelo,

    • fragmentos de audio para salida hablada.

En el siguiente diagrama, se proporciona una descripción general de la API de transmisión bidireccional.

Diagrama que explica el sistema de transmisión bidireccional de Amazon Nova Sonic.