Vocabulários personalizados - Amazon Transcribe

Vocabulários personalizados

Use vocabulários personalizados para melhorar a precisão da transcrição de uma ou mais palavras específicas. Geralmente, são termos específicos do domínio, como nomes de marcas e acrônimos, nomes próprios e palavras que o Amazon Transcribe não está processando corretamente.

Os vocabulários personalizados podem ser usados com todos os idiomas oferecidos. Observe que somente os caracteres listados no conjunto de caracteres do seu idioma podem ser usados em um vocabulário personalizado.

Importante

Você é responsável pela integridade de seus dados ao usar o Amazon Transcribe. Não insira informações confidenciais, informações de identificação pessoal (PII) ou informações de saúde protegidas (PHI) em um vocabulário personalizado.

Considerações ao criar um vocabulário personalizado:

  • Você pode ter até cem arquivos de vocabulário personalizado por Conta da AWS

  • O limite de tamanho para cada arquivo de vocabulário personalizado é de 50 Kb

  • Se estiver usando a API para criar seu vocabulário personalizado, o respectivo arquivo deverá estar no formato de texto (*.txt). Se estiver usando o Console de gerenciamento da AWS, o arquivo pode estar no formato de texto (*.txt) ou no formato de valores separados por vírgula (*.csv).

  • Cada entrada em um vocabulário personalizado não pode ultrapassar 256 caracteres

  • Para usar um vocabulário personalizado, ele precisa ter sido criado na mesma Região da AWS que a transcrição.

dica

Você pode testar o vocabulário personalizado usando o Console de gerenciamento da AWS. Quando o vocabulário personalizado estiver pronto para uso, faça login no Console de gerenciamento da AWS, selecione Transcrição em tempo real, role até Personalizações, ative Vocabulário personalizado e selecione-o na lista suspensa. Em seguida, selecione Iniciar streaming. Fale algumas palavras do vocabulário personalizado via microfone para ver se elas são processadas corretamente.

Tabelas de vocabulário personalizadas versus listas

Importante

Os vocabulários personalizados em formato de lista estão sendo descontinuados. Se você estiver criando um vocabulário personalizado, use o formato de tabela.

As tabelas oferecem mais opções e maior controle sobre a entrada e saída de palavras no vocabulário personalizado. Com tabelas, você deve especificar várias categorias (Phrase and DisplayAs), permitindo que você ajuste a saída.

As listas não têm opções adicionais, então você só pode digitar as entradas conforme quiser que elas apareçam na transcrição, substituindo todos os espaços por hifens.

O Console de gerenciamento da AWS, a AWS CLI e os SDKs da AWS usam tabelas de vocabulário personalizado da mesma forma; as listas são usadas de maneira diferente para cada método e, portanto, podem exigir formatação adicional para o uso bem-sucedido entre os métodos.

Para obter mais informações, consulte Criar um vocabulário personalizado usando uma tabela e Criar um vocabulário personalizado usando uma lista.

Para se aprofundar um pouco mais e aprender a usar o Amazon Augmented AI com vocabulários personalizados, consulte:

Operações de API específicas para vocabulários personalizados