View a markdown version of this page

Agentes de voz y voz - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Agentes de voz y voz

Los agentes de voz y voz interactúan con los usuarios a través del diálogo oral. Estos agentes integran el reconocimiento de voz, la comprensión del lenguaje natural y la síntesis de voz para permitir la IA conversacional en plataformas de telefonía, móviles, web e integradas.

Los agentes de voz son particularmente eficaces en entornos de manos libres, en tiempo real o basados en la accesibilidad. Al combinar las interfaces de streaming con el razonamiento basado en la tecnología LLM, facilitan interacciones dinámicas y enriquecedoras que resultan naturales para los usuarios.

Arquitectura

En el siguiente diagrama se muestra un agente de voz y voz:

Agentes de voz y voz.

Description (Descripción)

  1. Recibe una consulta de voz

    • El usuario envía una solicitud a un teléfono, micrófono o sistema integrado.

    • Un módulo speech-to-text (STT) convierte el audio en texto.

  2. Integra el contexto de streaming y telefonía

    • El agente utiliza una interfaz de streaming para gestionar I/O el audio en tiempo real.

    • Si se implementa en un contexto de contact center o de telecomunicaciones, la integración de telefonía gestiona el enrutamiento de las sesiones, la entrada multifrecuencia (DTMF) de doble tono y el transporte multimedia.

Nota: El DTMF hace referencia a los tonos que se generan al pulsar los botones del teclado de un teléfono. En el contexto de la integración del contexto de la transmisión y la telefonía en los agentes de voz, el DTMF se utiliza como mecanismo de entrada de señales durante una llamada telefónica, especialmente en los sistemas de respuesta de voz interactiva (IVR). Las entradas DTMF permiten al agente:

  • Reconozca las selecciones del menú (por ejemplo, «Pulse 1» para facturar). Presiona 2 para obtener asistencia»).

  • Recopile entradas numéricas (por ejemplo PINs, números de cuenta y números de confirmación)

  • Activa flujos de trabajo o transiciones de estado en los flujos de llamadas

  • Vuelva del habla al tono táctil cuando sea necesario

  1. Razones a través del contexto de la transmisión de LLM

    • La consulta se envía al agente, que la pasa, junto con los metadatos de la sesión (por ejemplo, el identificador de la persona que llama o el contexto anterior), a un LLM.

    • El LLM genera una respuesta, posiblemente utilizando una chain-of-thought estrategia o una memoria multigiro si la interacción es continua.

  2. Devuelve una respuesta de voz

    • El agente convierte su respuesta en voz mediante text-to-speech (TTS).

    • Devuelve el audio al usuario a través de un canal de voz.

Capacidades

  • Comprensión y generación de voz en tiempo real

  • Multilingüe I/O con soporte para STT y TTS

  • Integración con telefonía o streaming APIs

  • Reconocimiento de la sesión y transferencia de memoria entre turnos

Casos de uso comunes

  • Sistemas IVR conversacionales

  • Recepcionistas virtuales y planificadores de citas

  • Agentes del servicio de asistencia por voz

  • Asistentes de voz portátiles

  • Interfaces de voz para hogares inteligentes y herramientas de accesibilidad

Guía para la implementación

Puede crear este patrón con las siguientes herramientas y Servicios de AWS:

  • Amazon Lex V2 o Amazon Transcribe para STT

  • Amazon Polly para TTS

  • Amazon Chime SDK, Amazon Connect o Amazon Interactive Video Service (Amazon IVS) para streaming y telefonía

  • Amazon Bedrock para razonar con modelos antrópicos u otros AI21 modelos de base

  • AWS Lambda para conectar STT, LLM, TTS y el contexto de la sesión

(Opcional) Las mejoras adicionales pueden incluir las siguientes:

  • Amazon Kendra o OpenSearch para RAG sensible al contexto

  • Amazon DynamoDB para memoria de sesión

  • Amazon CloudWatch Logs y AWS X-Ray para la trazabilidad

Resumen

Los agentes de voz y voz son sistemas inteligentes que interactúan a través de conversaciones naturales. Al integrar las interfaces de voz con la infraestructura de razonamiento y transmisión en tiempo real de LLM, los agentes de voz permiten interacciones fluidas, accesibles y escalables.