Usar um arquivo de texto para criar um vocabulário médico personalizado - Amazon Transcribe

Usar um arquivo de texto para criar um vocabulário médico personalizado

Para criar um vocabulário personalizado, primeiro você precisa preparar um arquivo de texto que contenha um conjunto de palavras ou frases. O Amazon Transcribe Medical usa esse arquivo de texto para criar um vocabulário personalizado, o qual você pode ser usar para melhorar a precisão da transcrição dessas palavras ou frases. É possível criar um vocabulário personalizado usando a API CreateMedicalVocabulary ou o console do Amazon Transcribe Medical.

Para usar o Console de gerenciamento da AWS para criar um vocabulário personalizado, forneça o URI do Amazon S3 do arquivo de texto que contém as palavras ou frases.

  1. Faça login no Console de gerenciamento da AWS.

  2. No painel de navegação, em Amazon Transcribe Medical, selecione Vocabulário personalizado.

  3. Em Nome, em Configurações de vocabulário, escolha um nome para o vocabulário personalizado.

  4. Especifique a localização do arquivo de áudio ou arquivo de vídeo no Amazon S3:

    • Em Local do arquivo de entrada de vocabulário no S3, em Configurações de vocabulário, especifique o URI do Amazon S3 que identifica o arquivo de texto que você usará para criar o vocabulário personalizado.

    • Em Local do arquivo de entrada de vocabulário no S3, escolha Procurar no S3 para procurar o arquivo de texto e escolhê-lo.

  5. Selecione Criar vocabulário.

Você pode ver o status de processamento do vocabulário personalizado no Console de gerenciamento da AWS.

Como criar um vocabulário médico personalizado (API)
  • Para a API StartTranscriptionJob, especifique o seguinte.

    1. Em LanguageCode, especifique en-US.

    2. Em VocabularyFileUri, especifique o local do Amazon S3 do arquivo de texto que você usa para definir o vocabulário personalizado.

    3. Em VocabularyName, especifique um nome para o vocabulário personalizado. O nome que você especificar deve ser exclusivo em sua Conta da AWS.

Para ver o status de processamento do vocabulário personalizado, use a API GetMedicalVocabulary.

A seguir, um exemplo de solicitação usando o AWS SDK para Python (Boto3) para criar um vocabulário personalizado.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_medical_vocabulary( VocabularyName = job_name, VocabularyFileUri = 's3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-table.txt' LanguageCode = 'en-US', ) while True: status = transcribe.get_medical_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
Como habilitar a separação de oradores (locutores) em um trabalho de transcrição em lote (AWS CLI)
  • Execute o código a seguir.

    aws transcribe create-medical-vocabulary \ --vocabulary-name my-first-vocabulary \ --vocabulary-file-uri s3://amzn-s3-demo-bucket/my-vocabularies/my-vocabulary-file.txt \ --language-code en-US