Criar um vocabulário personalizado usando uma lista
Você pode criar vocabulários personalizados com base em listas usando o Console de gerenciamento da AWS, a AWS CLI ou os SDKs da AWS.
-
Console de gerenciamento da AWS: você deve criar e carregar um arquivo de texto contendo o vocabulário personalizado. Você pode usar entradas separadas por linha ou vírgula. Observe que a lista deve ser salva como um arquivo de texto (*.txt) no formato
LF. Se você usar qualquer outro formato, comoCRLF, o vocabulário personalizado não será aceito pelo Amazon Transcribe. -
AWS CLI e SDKs da AWS: você deve incluir o vocabulário personalizado como entradas separadas por vírgula na chamada de API usando a sinalização
Phrases.
Se uma entrada contiver várias palavras, você deverá hifenizar cada uma. Por exemplo, você inclui “Los Angeles” como Los-Angeles e “Andorra la Vella” como Andorra-la-Vella.
Veja alguns exemplos dos dois formatos de lista válidos. Consulte Criar listas de vocabulário personalizado para obter exemplos específicos do método.
-
Entradas separadas por vírgula:
Los-Angeles,CLI,Eva-Maria,ABCs,Andorra-la-Vella -
Entradas separadas por linha:
Los-Angeles CLI Eva-Maria ABCs Andorra-la-Vella
Importante
Você só pode usar caracteres compatíveis com seu idioma. Consulte o conjunto de caracteres do seu idioma para obter detalhes.
As listas de vocabulário personalizado não aceitam a operação CreateMedicalVocabulary. Se estiver criando um vocabulário médico personalizado, você deve usar um formato de tabela. Consulte Criar um vocabulário personalizado usando uma tabela para obter instruções.
Criar listas de vocabulário personalizado
Para processar uma lista de vocabulário personalizado para uso com o Amazon Transcribe, veja os seguintes exemplos:
Este exemplo usa o comando create-vocabulary com um arquivo de vocabulário personalizado formatado em lista. Para obter mais informações, consulte CreateVocabulary.
aws transcribe create-vocabulary \ --vocabulary-namemy-first-vocabulary\ --language-codeen-US\ --phrases {CLI,Eva-Maria,ABCs}
Veja a seguir outro exemplo usando o comando create-vocabulary e um corpo de solicitação que cria o vocabulário personalizado.
aws transcribe create-vocabulary \ --cli-input-json file://filepath/my-first-vocab-list.json
O arquivo my-first-vocab-list.json contém o corpo de solicitação a seguir.
{ "VocabularyName": "my-first-vocabulary", "LanguageCode": "en-US", "Phrases": [ "CLI","Eva-Maria","ABCs" ] }
Assim que VocabularyState muda de PENDING para READY, seu vocabulário personalizado estará pronto para ser usado com uma transcrição. Execute o comando para visualizar o status atual do vocabulário personalizado:
aws transcribe get-vocabulary \ --vocabulary-namemy-first-vocabulary
Este exemplo usa o AWS SDK para Python (Boto3) para criar um vocabulário personalizado com base em uma lista usando o método create_vocabularyCreateVocabulary.
Para ver exemplos adicionais de uso dos SDKs da AWS, bem como exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo Exemplos de código para o Amazon Transcribe usando SDKs da AWS.
from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') vocab_name = "my-first-vocabulary" response = transcribe.create_vocabulary( LanguageCode = 'en-US', VocabularyName = vocab_name, Phrases = [ 'CLI','Eva-Maria','ABCs' ] ) while True: status = transcribe.get_vocabulary(VocabularyName = vocab_name) if status['VocabularyState'] in ['READY', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)
nota
Se você criar um bucket do Amazon S3 para seus arquivos de vocabulário personalizado, o perfil do IAM que faz a solicitação CreateVocabulary deve ter permissões para acessar esse bucket. Se o perfil não tiver as permissões corretas, sua solicitação falhará. Opcionalmente, você pode especificar um perfil do IAM em sua solicitação incluindo o parâmetro DataAccessRoleArn. Para obter mais informações sobre políticas e perfis do IAM no Amazon Transcribe, consulte Amazon TranscribeExemplos de políticas baseadas em identidade do .