Arquitectura Description (Descripción)Capacidades Casos de uso comunes Guía para la implementación Resumen

Agentes de voz y voz

Los agentes de voz y voz interactúan con los usuarios a través del diálogo oral. Estos agentes integran el reconocimiento de voz, la comprensión del lenguaje natural y la síntesis de voz para permitir la IA conversacional en plataformas de telefonía, móviles, web e integradas.

Los agentes de voz son particularmente eficaces en entornos de manos libres, en tiempo real o basados en la accesibilidad. Al combinar las interfaces de streaming con el LLM-powered razonamiento, facilitan interacciones ricas y dinámicas que resultan naturales para los usuarios.

Arquitectura

En el siguiente diagrama se muestra un agente de voz y voz:

Description (Descripción)

Recibe una consulta de voz
- El usuario envía una solicitud a un teléfono, micrófono o sistema integrado.
- Un módulo de voz a texto (STT) convierte el audio en texto.
Integra el contexto de streaming y telefonía
- El agente utiliza una interfaz de streaming para gestionar I/O el audio en tiempo real.
- Si se implementa en un contexto de contact center o de telecomunicaciones, la integración de telefonía gestiona el enrutamiento de sesiones, la entrada multifrecuencia (DTMF) de doble tono y el transporte multimedia.

Nota: El DTMF hace referencia a los tonos que se generan al pulsar los botones del teclado de un teléfono. En el contexto de la integración del contexto de la transmisión y la telefonía en los agentes de voz, el DTMF se utiliza como mecanismo de entrada de señales durante una llamada telefónica, especialmente en los sistemas de respuesta de voz interactiva (IVR). Las entradas DTMF permiten al agente:

Reconozca las selecciones del menú (por ejemplo, «Pulse 1» para facturar). Presiona 2 para obtener asistencia»).
Recopile entradas numéricas (por ejemplo, números de cuenta, PIN y números de confirmación)
Activa flujos de trabajo o transiciones de estado en los flujos de llamadas
Vuelva del habla al tono táctil cuando sea necesario

Razones a través del contexto de la transmisión de LLM
- La consulta se envía al agente, que la pasa, junto con los metadatos de la sesión (por ejemplo, el identificador de la persona que llama o el contexto anterior), a un LLM.
- El LLM genera una respuesta, posiblemente utilizando una estrategia de cadena de pensamiento o una memoria de varios giros si la interacción es continua.
Devuelve una respuesta de voz
- El agente convierte su respuesta en voz mediante la conversión de texto a voz (TTS).
- Devuelve el audio al usuario a través de un canal de voz.

Capacidades

Real-time comprensión y generación del habla
Multilingüe I/O con soporte para STT y TTS
Integración con las API de telefonía o streaming
Reconocimiento de la sesión y transferencia de memoria entre turnos

Casos de uso comunes

Sistemas IVR conversacionales
Recepcionistas virtuales y planificadores de citas
Voice-driven agentes del servicio de asistencia
Asistentes de voz portátiles
Interfaces de voz para hogares inteligentes y herramientas de accesibilidad

Guía para la implementación

Puede crear este patrón con las siguientes herramientas y Servicios de AWS:

Amazon Lex V2 o Amazon Transcribe para STT
Amazon Polly para TTS
Amazon Chime SDK, Amazon Connect Customer o Amazon Interactive Video Service (Amazon IVS) para streaming y telefonía
Amazon Bedrock para razonar con Anthropic, AI21 u otros modelos de base
AWS Lambda para conectar STT, LLM, TTS y el contexto de la sesión

(Opcional) Las mejoras adicionales pueden incluir las siguientes:

Amazon Kendra o OpenSearch para RAG sensible al contexto
Amazon DynamoDB para memoria de sesión
Amazon CloudWatch Logs y AWS X-Ray para la trazabilidad

Resumen

Los agentes de voz y voz son sistemas inteligentes que interactúan a través de conversaciones naturales. Al integrar las interfaces de voz con la infraestructura de razonamiento y transmisión en tiempo real de LLM, los agentes de voz permiten interacciones fluidas, accesibles y escalables.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Agentes de codificación

Agentes de orquestación del flujo de trabajo