Arquitetura Description Capacidades Casos de uso comuns Orientação para implementação Resumo

Agentes de fala e voz

Agentes de voz e voz interagem com os usuários por meio do diálogo falado. Esses agentes integram reconhecimento de fala, compreensão de linguagem natural e síntese de fala para permitir a IA conversacional em plataformas telefônicas, móveis, web e incorporadas.

Os agentes de voz são particularmente eficazes em ambientes sem usar as mãos, em tempo real ou orientados pela acessibilidade. Ao combinar interfaces de streaming com LLM-powered raciocínio, elas facilitam interações ricas e dinâmicas que parecem naturais para os usuários.

Arquitetura

Um agente de fala e voz é mostrado no diagrama a seguir:

Description

Recebe uma consulta de voz
- O usuário envia uma solicitação para um telefone, microfone ou sistema embarcado.
- Um módulo de fala para texto (STT) converte o áudio em texto.
Integra o contexto de streaming e telefonia
- O agente usa uma interface de streaming para gerenciar o áudio I/O em tempo real.
- Se for implantada em um contexto de contact center ou de telecomunicações, a integração telefônica gerencia o roteamento de sessões, a entrada multifrequência de dois tons (DTMF) e o transporte de mídia.

Nota: DTMF se refere aos tons gerados quando você pressiona os botões no teclado do telefone. No contexto da integração do contexto de streaming e telefonia em agentes de voz, o DTMF é usado como um mecanismo de entrada de sinal durante uma chamada telefônica, especialmente em sistemas de resposta de voz interativa (IVR). As entradas DTMF permitem que o agente:

Reconheça as seleções do menu (por exemplo, “Pressione 1 para faturar”. Pressione 2 para obter suporte.”)
Colete entradas numéricas (por exemplo, números de conta, PINs e números de confirmação)
Acione fluxos de trabalho ou transições de estado em fluxos de chamadas
Reverta da fala para o tom de toque quando necessário

Razões por meio do contexto de fluxo do LLM
- A consulta é enviada ao agente, que a transmite, junto com qualquer metadado da sessão (por exemplo, ID do chamador, contexto anterior), para um LLM.
- O LLM gera uma resposta, possivelmente usando uma estratégia de cadeia de pensamento ou memória de múltiplas voltas se a interação for contínua.
Retorna uma resposta de voz
- O agente converte sua resposta em fala usando a conversão de texto em fala (TTS).
- Ele retorna o áudio para o usuário por meio de um canal de voz.

Capacidades

Real-time compreensão e geração de fala
Multilíngue I/O com suporte a STT e TTS
Integração com APIs de telefonia ou streaming
Reconhecimento da sessão e transferência de memória entre turnos

Casos de uso comuns

Sistemas IVR conversacionais
Recepcionistas virtuais e agendadores de consultas
Voice-driven agentes de helpdesk
Assistentes de voz vestíveis
Interfaces de voz para casas inteligentes e ferramentas de acessibilidade

Orientação para implementação

Você pode criar esse padrão usando as seguintes ferramentas e Serviços da AWS:

Amazon Lex V2 ou Amazon Transcribe para STT
Amazon Polly para TTS
Amazon Chime SDK, Amazon Connect Customer ou Amazon Interactive Video Service (Amazon IVS) para streaming e telefonia
Amazon Bedrock para raciocinar com Anthropic, AI21 ou outros modelos de fundação
AWS Lambda para conectar STT, LLM, TTS e contexto de sessão

(Opcional) Aprimoramentos adicionais podem incluir o seguinte:

Amazon Kendra OpenSearch ou para RAG com reconhecimento de contexto
Amazon DynamoDB para memória de sessão
Amazon CloudWatch Logs e AWS X-Ray para rastreabilidade

Resumo

Os agentes de fala e voz são sistemas inteligentes que interagem por meio de conversas naturais. Ao integrar interfaces de fala com o raciocínio LLM e a infraestrutura de streaming em tempo real, os agentes de voz permitem interações perfeitas, acessíveis e escaláveis.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Agentes de codificação

Agentes de orquestração de fluxo de trabalho