Usar um filtro de vocabulário personalizado - Amazon Transcribe

Usar um filtro de vocabulário personalizado

Depois que o filtro de vocabulário personalizado for criado, você poderá incluí-lo nas solicitações de transcrição. Consulte as seções a seguir para ver exemplos.

O idioma do filtro de vocabulário personalizado que você está incluindo na solicitação deve corresponder ao código de idioma especificado para a mídia. Se você usar a identificação de idioma e especificar várias opções de idioma, poderá incluir um filtro de vocabulário personalizado por idioma especificado. Se os idiomas dos filtros de vocabulário personalizado não corresponderem ao idioma identificado no áudio, os filtros não serão aplicados à transcrição e não haverá avisos ou erros.

Usar um filtro de vocabulário personalizado em uma transcrição em lote

Para usar um filtro de vocabulário personalizado com uma transcrição em lote, veja os seguintes exemplos:

  1. Faça login no Console de gerenciamento da AWS.

  2. No painel de navegação, escolha Tarefas de transcrição e selecione Criar tarefa (no canto superior direito). Isso abre a página Especificar os detalhes da tarefa.

    Captura de tela do console do Amazon Transcribe: a página “Especificar configurações de tarefa”.

    Nomeie seu trabalho e especifique sua mídia de entrada. Opcionalmente, inclua outros campos e escolha Próximo.

  3. Na página Configurar tarefa, no painel Remoção de conteúdo, ative Filtragem de vocabulário.

    Captura de tela do console do Amazon Transcribe: a página “Configurar tarefa”.
  4. Selecione o filtro de vocabulário personalizado no menu suspenso e especifique o método de filtragem.

    Captura de tela do console do Amazon Transcribe: opções de seleção de filtro de vocabulário.
  5. Selecione Criar tarefa para executar a tarefa de transcrição.

Este exemplo usa o comando start-transcription-job e o parâmetro Settings com os subparâmetros VocabularyFilterName e VocabularyFilterMethod. Para obter mais informações, consulte StartTranscriptionJob e Settings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

Veja a seguir outro exemplo usando o comando start-transcription-job e um corpo de solicitação que inclui o filtro de vocabulário personalizado com esse trabalho.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-vocabulary-filter-job.json

O arquivo my-first-vocabulary-filter-job.json contém o corpo de solicitação a seguir.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "VocabularyFilterName": "my-first-vocabulary-filter", "VocabularyFilterMethod": "mask" } }

Este exemplo usa o AWS SDK para Python (Boto3) para incluir um filtro de vocabulário personalizado usando o argumento Settings para o método start_transcription_job. Para obter mais informações, consulte StartTranscriptionJob e Settings.

Para ver exemplos adicionais de uso dos SDKs da AWS, bem como exemplos específicos de recursos, cenários e entre serviços, consulte o capítulo Exemplos de código para o Amazon Transcribe usando SDKs da AWS.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'VocabularyFilterName': 'my-first-vocabulary-filter', 'VocabularyFilterMethod': 'mask' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Usar um filtro de vocabulário personalizado em uma transcrição de streaming

Para usar um filtro de vocabulário personalizado com uma transcrição de streaming, veja os seguintes exemplos:

  1. Faça login no Console de gerenciamento da AWS.

  2. No painel de navegação, escolha Transcrição em tempo real. Role para baixo até Configurações de remoção de conteúdo e expanda esse campo se ele estiver minimizado.

    Captura de tela do console do Amazon Transcribe: a página “Transcrição em tempo real”.
  3. Ative Filtragem de vocabulário. Selecione um filtro de vocabulário personalizado no menu suspenso e especifique o método de filtragem.

    Captura de tela do console do Amazon Transcribe: o painel expandido “Configurações de remoção de conteúdo”.

    Inclua outras configurações que deseja aplicar ao fluxo.

  4. Agora está tudo pronto para transcrever seu fluxo. Selecione Iniciar transmissão e comece a falar. Para finalizar o ditado, selecione Interromper transmissão.

Este exemplo cria uma solicitação HTTP/2 que inclui o filtro de vocabulário personalizado e o método de filtro. Para obter mais informações sobre como usar streaming HTTP/2 com o Amazon Transcribe, consulte Configurar um fluxo de HTTP/2. Para obter mais detalhes sobre parâmetros e cabeçalhos específicos do Amazon Transcribe, consulte StartStreamTranscription.

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter x-amzn-transcribe-vocabulary-filter-method: mask transfer-encoding: chunked

As definições de parâmetros podem ser encontradas na Referência da API. Os parâmetros comuns a todas as operações de API da AWS estão listados na seção Common Parameters.

Este exemplo cria um URL pré-assinado que aplica o filtro de vocabulário personalizado a um fluxo do WebSocket. Quebras de linha foram adicionadas para uma melhor leitura. Para obter mais informações sobre como usar fluxos do WebSocket com o Amazon Transcribe, consulte Configurar um fluxo do WebSocket. Para obter mais detalhes sobre os parâmetros, consulte StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &vocabulary-filter-name=my-first-vocabulary-filter &vocabulary-filter-method=mask

As definições de parâmetros podem ser encontradas na Referência da API. Os parâmetros comuns a todas as operações de API da AWS estão listados na seção Common Parameters.