As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Agentes de fala e voz
Agentes de voz e voz interagem com os usuários por meio do diálogo falado. Esses agentes integram reconhecimento de fala, compreensão de linguagem natural e síntese de fala para permitir a IA conversacional em plataformas telefônicas, móveis, web e incorporadas.
Os agentes de voz são particularmente eficazes em ambientes sem usar as mãos, em tempo real ou orientados pela acessibilidade. Ao combinar interfaces de streaming com raciocínio baseado em LLM, elas facilitam interações ricas e dinâmicas que parecem naturais para os usuários.
Arquitetura
Um agente de fala e voz é mostrado no diagrama a seguir:
Description
-
Recebe uma consulta de voz
-
O usuário envia uma solicitação para um telefone, microfone ou sistema embarcado.
-
Um módulo speech-to-text (STT) converte o áudio em texto.
-
-
Integra o contexto de streaming e telefonia
-
O agente usa uma interface de streaming para gerenciar o áudio I/O em tempo real.
-
Se for implantada em um contexto de contact center ou de telecomunicações, a integração telefônica gerencia o roteamento de sessões, a entrada de multifrequência de dois tons (DTMF) e o transporte de mídia.
-
Nota: DTMF se refere aos tons gerados quando você pressiona os botões no teclado do telefone. No contexto da integração do contexto de streaming e telefonia em agentes de voz, o DTMF é usado como um mecanismo de entrada de sinal durante uma chamada telefônica, especialmente em sistemas de resposta de voz interativa (IVR). As entradas DTMF permitem que o agente:
-
Reconheça as seleções do menu (por exemplo, “Pressione 1 para faturar”. Pressione 2 para obter suporte.”)
-
Colete entradas numéricas (por exemplo, números de contas e números PINs de confirmação)
-
Acione fluxos de trabalho ou transições de estado em fluxos de chamadas
-
Reverta da fala para o tom de toque quando necessário
-
Razões por meio do contexto de fluxo do LLM
-
A consulta é enviada ao agente, que a transmite, junto com todos os metadados da sessão (por exemplo, ID do chamador, contexto anterior), para um LLM.
-
O LLM gera uma resposta, possivelmente usando uma chain-of-thought estratégia ou memória de várias voltas se a interação for contínua.
-
-
Retorna uma resposta de voz
-
O agente converte sua resposta em fala usando text-to-speech (TTS).
-
Ele retorna o áudio para o usuário por meio de um canal de voz.
-
Capacidades
-
Compreensão e geração de fala em tempo real
-
Multilíngue I/O com suporte a STT e TTS
-
Integração com telefonia ou streaming APIs
-
Reconhecimento da sessão e transferência de memória entre turnos
Casos de uso comuns
-
Sistemas IVR conversacionais
-
Recepcionistas virtuais e agendadores de consultas
-
Agentes de helpdesk orientados por voz
-
Assistentes de voz vestíveis
-
Interfaces de voz para casas inteligentes e ferramentas de acessibilidade
Orientação para implementação
Você pode criar esse padrão usando as seguintes ferramentas e Serviços da AWS:
-
Amazon Lex V2 ou Amazon Transcribe para STT
-
Amazon Polly para TTS
-
Amazon Chime SDK, Amazon Connect ou Amazon Interactive Video Service (Amazon IVS) para streaming e telefonia
-
Amazon Bedrock para raciocinar com Anthropic ou outros AI21 modelos de fundação
-
AWS Lambda para conectar STT, LLM, TTS e contexto de sessão
(Opcional) Aprimoramentos adicionais podem incluir o seguinte:
-
Amazon Kendra OpenSearch ou para RAG com reconhecimento de contexto
-
Amazon DynamoDB para memória de sessão
-
Amazon CloudWatch Logs e AWS X-Ray para rastreabilidade
Resumo
Os agentes de fala e voz são sistemas inteligentes que interagem por meio de conversas naturais. Ao integrar interfaces de fala com o raciocínio LLM e a infraestrutura de streaming em tempo real, os agentes de voz permitem interações perfeitas, acessíveis e escaláveis.