As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Agentes de fala e voz
Agentes de voz e voz interagem com os usuários por meio do diálogo falado. Esses agentes integram reconhecimento de fala, compreensão de linguagem natural e síntese de fala para permitir a IA conversacional em plataformas telefônicas, móveis, web e incorporadas.
Os agentes de voz são particularmente eficazes em ambientes sem usar as mãos, em tempo real ou orientados pela acessibilidade. Ao combinar interfaces de streaming com LLM-powered raciocínio, elas facilitam interações ricas e dinâmicas que parecem naturais para os usuários.
Arquitetura
Um agente de fala e voz é mostrado no diagrama a seguir:
Description
-
Recebe uma consulta de voz
-
O usuário envia uma solicitação para um telefone, microfone ou sistema embarcado.
-
Um módulo de fala para texto (STT) converte o áudio em texto.
-
-
Integra o contexto de streaming e telefonia
-
O agente usa uma interface de streaming para gerenciar o áudio I/O em tempo real.
-
Se for implantada em um contexto de contact center ou de telecomunicações, a integração telefônica gerencia o roteamento de sessões, a entrada multifrequência de dois tons (DTMF) e o transporte de mídia.
-
Nota: DTMF se refere aos tons gerados quando você pressiona os botões no teclado do telefone. No contexto da integração do contexto de streaming e telefonia em agentes de voz, o DTMF é usado como um mecanismo de entrada de sinal durante uma chamada telefônica, especialmente em sistemas de resposta de voz interativa (IVR). As entradas DTMF permitem que o agente:
-
Reconheça as seleções do menu (por exemplo, “Pressione 1 para faturar”. Pressione 2 para obter suporte.”)
-
Colete entradas numéricas (por exemplo, números de conta, PINs e números de confirmação)
-
Acione fluxos de trabalho ou transições de estado em fluxos de chamadas
-
Reverta da fala para o tom de toque quando necessário
-
Razões por meio do contexto de fluxo do LLM
-
A consulta é enviada ao agente, que a transmite, junto com qualquer metadado da sessão (por exemplo, ID do chamador, contexto anterior), para um LLM.
-
O LLM gera uma resposta, possivelmente usando uma estratégia de cadeia de pensamento ou memória de múltiplas voltas se a interação for contínua.
-
-
Retorna uma resposta de voz
-
O agente converte sua resposta em fala usando a conversão de texto em fala (TTS).
-
Ele retorna o áudio para o usuário por meio de um canal de voz.
-
Capacidades
-
Real-time compreensão e geração de fala
-
Multilíngue I/O com suporte a STT e TTS
-
Integração com APIs de telefonia ou streaming
-
Reconhecimento da sessão e transferência de memória entre turnos
Casos de uso comuns
-
Sistemas IVR conversacionais
-
Recepcionistas virtuais e agendadores de consultas
-
Voice-driven agentes de helpdesk
-
Assistentes de voz vestíveis
-
Interfaces de voz para casas inteligentes e ferramentas de acessibilidade
Orientação para implementação
Você pode criar esse padrão usando as seguintes ferramentas e Serviços da AWS:
-
Amazon Lex V2 ou Amazon Transcribe para STT
-
Amazon Polly para TTS
-
Amazon Chime SDK, Amazon Connect Customer ou Amazon Interactive Video Service (Amazon IVS) para streaming e telefonia
-
Amazon Bedrock para raciocinar com Anthropic, AI21 ou outros modelos de fundação
-
AWS Lambda para conectar STT, LLM, TTS e contexto de sessão
(Opcional) Aprimoramentos adicionais podem incluir o seguinte:
-
Amazon Kendra OpenSearch ou para RAG com reconhecimento de contexto
-
Amazon DynamoDB para memória de sessão
-
Amazon CloudWatch Logs e AWS X-Ray para rastreabilidade
Resumo
Os agentes de fala e voz são sistemas inteligentes que interagem por meio de conversas naturais. Ao integrar interfaces de fala com o raciocínio LLM e a infraestrutura de streaming em tempo real, os agentes de voz permitem interações perfeitas, acessíveis e escaláveis.