Tipos de modelo de reconhecimento de fala Configurando as preferências do modelo de fala Escolhendo o modelo de fala certo

Configurando as preferências do modelo de reconhecimento de fala

O Amazon Lex V2 fornece diferentes modelos de reconhecimento de fala que você pode escolher para otimizar a precisão e o desempenho dos recursos de reconhecimento de fala do seu bot. Você pode configurar as preferências do modelo de fala para selecionar o modelo mais adequado para seu caso de uso.

Tipos de modelo de reconhecimento de fala

O Amazon Lex V2 é compatível com os seguintes modelos de reconhecimento de fala:

Modelo padrão: O modelo padrão de reconhecimento de fala fornece desempenho confiável de reconhecimento de fala para casos de uso geral. Esse modelo oferece precisão consistente em uma ampla variedade de condições de áudio e é adequado para a maioria dos aplicativos de IA conversacional.
Modelo neural: O modelo de reconhecimento de fala neural fornece maior precisão e melhor tratamento de padrões naturais de fala, sotaques e ruídos de fundo. Esse modelo usa arquiteturas de rede neural avançadas para melhorar o desempenho do reconhecimento, especialmente em ambientes de áudio desafiadores.
Deepgram: O Deepgram fornece uma API pública de fala para texto (STT) para usuários que criam uma conta e uma chave de API. Consulte https://deepgram.com/para obter informações sobre suas ofertas públicas.

Configurando as preferências do modelo de fala

Você pode configurar as preferências do modelo de fala ao criar ou atualizar a localidade de um bot. A configuração de preferência do modelo de fala determina qual modelo de reconhecimento o Amazon Lex V2 usa para processar a entrada de áudio para seu bot.

Para configurar as preferências do modelo de fala:

No console do Amazon Lex V2, navegue até seu bot e selecione a localidade que você deseja configurar.
Nas configurações locais do bot, localize a seção Configurações de reconhecimento de fala.
Para a preferência do modelo de fala, escolha uma das seguintes opções:
- Padrão - Use o modelo padrão de reconhecimento de fala para obter um desempenho confiável em casos de uso geral.
- Neural - Use o modelo de reconhecimento de fala neural para aumentar a precisão e lidar melhor com os padrões naturais de fala.
- Deepgram - Use a API Listen do Deepgram para reconhecimento de fala. Para obter instruções de configuração, consulteConfigurando a preferência do modelo de fala do Deepgram.
Salve suas alterações para aplicar a preferência do modelo de fala à localidade do seu bot.

nota

Se você não especificar uma preferência de modelo de fala, o Amazon Lex V2 usa o modelo padrão por padrão.

Escolhendo o modelo de fala certo

Considere os seguintes fatores ao escolher um modelo de reconhecimento de fala para seu bot:

Qualidade de áudio — Se seu bot processar áudio com ruído de fundo, qualidade de áudio variável ou condições acústicas desafiadoras, o modelo neural poderá fornecer melhor precisão.
Diversidade de falantes - Se seu bot interagir com usuários que têm sotaques ou padrões de fala diversos, os recursos aprimorados de processamento de linguagem natural do modelo neural podem melhorar o desempenho do reconhecimento.
Requisitos de desempenho - O modelo padrão fornece desempenho consistente e pode ser suficiente para aplicativos com ambientes de áudio controlados e entrada de voz clara.

Você pode testar os dois modelos com seu caso de uso específico para determinar qual fornece o melhor equilíbrio entre precisão e desempenho para seu aplicativo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Personalização de transcrições de fala para uso com seu bot do Lex V2

Configurando a preferência do modelo de fala do Deepgram