Uso de filtros de vocabulario personalizados - Amazon Transcribe

Uso de filtros de vocabulario personalizados

Una vez creado su vocabulario personalizado, puede incluirlo en sus solicitudes de transcripción; consulte las siguientes secciones para ver ejemplos.

El idioma del filtro de vocabulario personalizado que incluya en la solicitud debe coincidir con el código de idioma que especifique para el contenido multimedia. Si utiliza la identificación del idioma y especifica varias opciones de idioma, puede incluir un filtro de vocabulario personalizado por idioma especificado. Si los idiomas no coinciden, los filtros del vocabulario personalizados no se aplicará a la transcripción y no aparecerán advertencias ni errores.

Uso de filtros de vocabulario personalizados en una transcripción por lotes

Para usar un filtro de vocabulario personalizado con una transcripción por lotes, consulte los siguientes ejemplos:

  1. Inicie sesión en Consola de administración de AWS.

  2. En el panel de navegación, elija Trabajos de transcripción y, a continuación, seleccione Crear trabajo (arriba a la derecha). Se abrirá la página Especificar los detalles del trabajo.

    Captura de pantalla de Amazon Transcribe: página “Especificar la configuración del trabajo”.

    Asigne un nombre a su trabajo y especifique el medio de entrada. Si lo desea, incluya cualquier otro campo y, a continuación, seleccione Siguiente.

  3. En la página Configurar trabajo, en el panel de eliminación de contenido, active el filtrado de vocabulario.

    Captura de pantalla de Amazon Transcribe: página “Configurar trabajo”.
  4. Seleccione su filtro de vocabulario personalizado en el menú desplegable y especifique el método de filtrado.

    Captura de pantalla de Amazon Transcribe: opciones de selección de filtros de vocabulario.
  5. Seleccione Crear trabajo para ejecutar el trabajo de transcripción.

En este ejemplo, se utilizan el comando start-transcription-job y el parámetro Settings con los subparámetros VocabularyFilterName y VocabularyFilterMethod. Para obtener más información, consulte StartTranscriptionJob y Settings.

aws transcribe start-transcription-job \ --region us-west-2 \ --transcription-job-name my-first-transcription-job \ --media MediaFileUri=s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac \ --output-bucket-name amzn-s3-demo-bucket \ --output-key my-output-files/ \ --language-code en-US \ --settings VocabularyFilterName=my-first-vocabulary-filter,VocabularyFilterMethod=mask

Este es otro ejemplo en el que se usa el comando start-transcription-job y un cuerpo de la solicitud que incluye el filtro de vocabulario personalizado para ese trabajo.

aws transcribe start-transcription-job \ --region us-west-2 \ --cli-input-json file://my-first-vocabulary-filter-job.json

El archivo my-first-vocabulary-filter-job.json contiene el siguiente cuerpo de la solicitud.

{ "TranscriptionJobName": "my-first-transcription-job", "Media": { "MediaFileUri": "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" }, "OutputBucketName": "amzn-s3-demo-bucket", "OutputKey": "my-output-files/", "LanguageCode": "en-US", "Settings": { "VocabularyFilterName": "my-first-vocabulary-filter", "VocabularyFilterMethod": "mask" } }

En este ejemplo, se utiliza AWS SDK para Python (Boto3) para incluir un vocabulario personalizado mediante el argumento Settings para el método start_transcription_job. Para obtener más información, consulte StartTranscriptionJob y Settings.

Para ver ejemplos adicionales sobre el uso de los SDK de AWS, incluidos ejemplos de características específicas, escenarios y servicios cruzados, consulte el capítulo Ejemplos de código de Amazon Transcribe con los SDK de AWS.

from __future__ import print_function import time import boto3 transcribe = boto3.client('transcribe', 'us-west-2') job_name = "my-first-transcription-job" job_uri = "s3://amzn-s3-demo-bucket/my-input-files/my-media-file.flac" transcribe.start_transcription_job( TranscriptionJobName = job_name, Media = { 'MediaFileUri': job_uri }, OutputBucketName = 'amzn-s3-demo-bucket', OutputKey = 'my-output-files/', LanguageCode = 'en-US', Settings = { 'VocabularyFilterName': 'my-first-vocabulary-filter', 'VocabularyFilterMethod': 'mask' } ) while True: status = transcribe.get_transcription_job(TranscriptionJobName = job_name) if status['TranscriptionJob']['TranscriptionJobStatus'] in ['COMPLETED', 'FAILED']: break print("Not ready yet...") time.sleep(5) print(status)

Uso de filtros de vocabulario personalizados en una transcripción de streaming

Para usar un filtro de vocabulario personalizado con una transcripción de streaming, consulte los siguientes ejemplos:

  1. Inicie sesión en el Consola de administración de AWS.

  2. En el panel de navegación, elija Transcripción en tiempo real. Desplácese hacia abajo hasta Configuración de eliminación de contenido y expanda este campo si está minimizado.

    Amazon Transcribecaptura de pantalla de la consola: la página de “transcripción en tiempo real”.
  3. Active Filtrado de vocabulario. Seleccione su filtro de vocabulario personalizado en el menú desplegable y especifique el método de filtrado.

    Captura de pantalla de Amazon Transcribe: panel ampliado “Configuración de eliminación de contenido”.

    Incluya cualquier otra configuración que desee aplicar a la secuencia.

  4. Ahora tiene todo preparado para transcribir la secuencia. Seleccione Comenzar streaming y comience a hablar. Para finalizar el dictado, seleccione Detener streaming.

En este ejemplo, se crea una solicitud HTTP/2 que incluye su filtro de vocabulario personalizado y el método de filtrado. Para obtener más información sobre el uso del streaming HTTP/2 con Amazon Transcribe, consulte Configuración de una secuencia HTTP/2. Para obtener más información sobre los parámetros y encabezados específicos de Amazon Transcribe, consulte. StartStreamTranscription

POST /stream-transcription HTTP/2 host: transcribestreaming.us-west-2.amazonaws.com X-Amz-Target: com.amazonaws.transcribe.Transcribe.StartStreamTranscription Content-Type: application/vnd.amazon.eventstream X-Amz-Content-Sha256: string X-Amz-Date: 20220208T235959Z Authorization: AWS4-HMAC-SHA256 Credential=access-key/20220208/us-west-2/transcribe/aws4_request, SignedHeaders=content-type;host;x-amz-content-sha256;x-amz-date;x-amz-target;x-amz-security-token, Signature=string x-amzn-transcribe-language-code: en-US x-amzn-transcribe-media-encoding: flac x-amzn-transcribe-sample-rate: 16000 x-amzn-transcribe-vocabulary-filter-name: my-first-vocabulary-filter x-amzn-transcribe-vocabulary-filter-method: mask transfer-encoding: chunked

Las definiciones de los parámetros se encuentran en Referencia de la API; los parámetros comunes a todas las operaciones de la API de AWS se enumeran en la sección Parámetros comunes.

En este ejemplo, se crea una URL prefirmada que aplica su filtro de vocabulario personalizado a una secuencia de WebSocket. Se han añadido saltos de línea para facilitar la lectura. Para obtener más información acerca de cómo usar las secuencias de WebSocket con Amazon Transcribe, consulte Configurar una transmisión en WebSocket. Para obtener más información sobre parámetros, consulte StartStreamTranscription.

GET wss://transcribestreaming.us-west-2.amazonaws.com:8443/stream-transcription-websocket? &X-Amz-Algorithm=AWS4-HMAC-SHA256 &X-Amz-Credential=AKIAIOSFODNN7EXAMPLE%2F20220208%2Fus-west-2%2Ftranscribe%2Faws4_request &X-Amz-Date=20220208T235959Z &X-Amz-Expires=300 &X-Amz-Security-Token=security-token &X-Amz-Signature=string &X-Amz-SignedHeaders=content-type%3Bhost%3Bx-amz-date &language-code=en-US &media-encoding=flac &sample-rate=16000 &vocabulary-filter-name=my-first-vocabulary-filter &vocabulary-filter-method=mask

Las definiciones de los parámetros se encuentran en Referencia de la API; los parámetros comunes a todas las operaciones de la API de AWS se enumeran en la sección Parámetros comunes.