View a markdown version of this page

Agentes de fala e voz - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Agentes de fala e voz

Agentes de voz e voz interagem com os usuários por meio do diálogo falado. Esses agentes integram reconhecimento de fala, compreensão de linguagem natural e síntese de fala para permitir a IA conversacional em plataformas telefônicas, móveis, web e incorporadas.

Os agentes de voz são particularmente eficazes em ambientes sem usar as mãos, em tempo real ou orientados pela acessibilidade. Ao combinar interfaces de streaming com LLM-powered raciocínio, elas facilitam interações ricas e dinâmicas que parecem naturais para os usuários.

Arquitetura

Um agente de fala e voz é mostrado no diagrama a seguir:

Agentes de fala e voz.

Description

  1. Recebe uma consulta de voz

    • O usuário envia uma solicitação para um telefone, microfone ou sistema embarcado.

    • Um módulo de fala para texto (STT) converte o áudio em texto.

  2. Integra o contexto de streaming e telefonia

    • O agente usa uma interface de streaming para gerenciar o áudio I/O em tempo real.

    • Se for implantada em um contexto de contact center ou de telecomunicações, a integração telefônica gerencia o roteamento de sessões, a entrada multifrequência de dois tons (DTMF) e o transporte de mídia.

Nota: DTMF se refere aos tons gerados quando você pressiona os botões no teclado do telefone. No contexto da integração do contexto de streaming e telefonia em agentes de voz, o DTMF é usado como um mecanismo de entrada de sinal durante uma chamada telefônica, especialmente em sistemas de resposta de voz interativa (IVR). As entradas DTMF permitem que o agente:

  • Reconheça as seleções do menu (por exemplo, “Pressione 1 para faturar”. Pressione 2 para obter suporte.”)

  • Colete entradas numéricas (por exemplo, números de conta, PINs e números de confirmação)

  • Acione fluxos de trabalho ou transições de estado em fluxos de chamadas

  • Reverta da fala para o tom de toque quando necessário

  1. Razões por meio do contexto de fluxo do LLM

    • A consulta é enviada ao agente, que a transmite, junto com qualquer metadado da sessão (por exemplo, ID do chamador, contexto anterior), para um LLM.

    • O LLM gera uma resposta, possivelmente usando uma estratégia de cadeia de pensamento ou memória de múltiplas voltas se a interação for contínua.

  2. Retorna uma resposta de voz

    • O agente converte sua resposta em fala usando a conversão de texto em fala (TTS).

    • Ele retorna o áudio para o usuário por meio de um canal de voz.

Capacidades

  • Real-time compreensão e geração de fala

  • Multilíngue I/O com suporte a STT e TTS

  • Integração com APIs de telefonia ou streaming

  • Reconhecimento da sessão e transferência de memória entre turnos

Casos de uso comuns

  • Sistemas IVR conversacionais

  • Recepcionistas virtuais e agendadores de consultas

  • Voice-driven agentes de helpdesk

  • Assistentes de voz vestíveis

  • Interfaces de voz para casas inteligentes e ferramentas de acessibilidade

Orientação para implementação

Você pode criar esse padrão usando as seguintes ferramentas e Serviços da AWS:

  • Amazon Lex V2 ou Amazon Transcribe para STT

  • Amazon Polly para TTS

  • Amazon Chime SDK, Amazon Connect Customer ou Amazon Interactive Video Service (Amazon IVS) para streaming e telefonia

  • Amazon Bedrock para raciocinar com Anthropic, AI21 ou outros modelos de fundação

  • AWS Lambda para conectar STT, LLM, TTS e contexto de sessão

(Opcional) Aprimoramentos adicionais podem incluir o seguinte:

  • Amazon Kendra OpenSearch ou para RAG com reconhecimento de contexto

  • Amazon DynamoDB para memória de sessão

  • Amazon CloudWatch Logs e AWS X-Ray para rastreabilidade

Resumo

Os agentes de fala e voz são sistemas inteligentes que interagem por meio de conversas naturais. Ao integrar interfaces de fala com o raciocínio LLM e a infraestrutura de streaming em tempo real, os agentes de voz permitem interações perfeitas, acessíveis e escaláveis.