Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Entrada y salida de datos
Amazon Transcribe toma los datos de audio, como un archivo multimedia en un bucket de Amazon S3 o una secuencia multimedia, y los convierte en datos de texto.
Si está transcribiendo un archivo ubicado en un bucket de Amazon S3, está realizando una transcripción por lotes. Si está transcribiendo una secuencia de audio en tiempo real, está realizando una transcripción en streaming. Estos dos procesos tienen reglas y requisitos diferentes.
En las transcripciones por lotes, si no necesita procesar todos sus trabajos de transcripción de forma simultánea, use Cola de trabajos. Esto permite a Amazon Transcribe realizar un seguimiento de sus trabajos de transcripción y procesarlos cuando hay slots disponibles.
nota
Amazon Transcribe puede almacenar de forma temporal el contenido para mejorar la calidad de los modelos de análisis. Consulte las preguntas frecuentes de Amazon Transcribe
Formatos multimedia
Los tipos de formatos multimedia compatibles difieren entre las transcripciones por lotes y las transcripciones en streaming, aunque se recomiendan los formatos sin pérdidas para ambas. Para obtener más información, consulte la tabla siguiente:
Lote |
Streaming |
|
|---|---|---|
Formatos admitidos |
|
|
Formatos recomendados |
|
|
Para obtener resultados óptimos, utilice un formato de audio sin pérdida como FLAC o WAV con codificación PCM de 16 bits.
nota
Las transcripciones en streaming no son compatibles con todos los idiomas. Consulte la columna “Entrada de datos” de la tabla de idiomas admitidos para obtener más información.
Canales de audio
Amazon Transcribe admite multimedia de un solo canal y de dos canales. Actualmente, no se admiten archivos multimedia con más de dos canales.
Si el audio contiene varias voces en un canal y desea particionar y etiquetar cada voz en el resultado de la transcripción, puede utilizar la partición de voces (diarización).
Si el audio contiene voz en dos canales distintos, puede utilizar la identificación de canales para transcribir cada canal por separado dentro de la transcripción.
Ambas opciones producen un archivo de transcripción.
nota
Si no habilita la partición de voces o la identificación de canales, el texto de la transcripción aparecerá como una sección continua.
Frecuencia de muestreo
Con los trabajos de transcripción por lotes, puede elegir obtener frecuencias de muestreo, aunque este parámetro es opcional. Si lo incluye en su solicitud, asegúrese de que el valor que proporciona coincide con la frecuencia de muestreo real del audio. Si proporciona una frecuencia de muestreo que no coincida con su audio, es posible que no funcione.
En el caso de las transcripciones en streaming, debe incluir una frecuencia de muestreo en su solicitud. Al igual que con los trabajos de transcripción por lotes, asegúrese de que el valor que proporcione coincida con la frecuencia de muestreo real del audio.
Las frecuencias de muestreo para audio de baja fidelidad, como las grabaciones telefónicas, suelen utilizar 8000 Hz. Para el audio de alta fidelidad, Amazon Transcribe admite valores entre 16 000 Hz y 48 000 Hz.
Output
El resultado de la transcripción está en formato JSON. La primera parte de la transcripción contiene la propia transcripción en forma de párrafo, seguida de datos adicionales para cada palabra y signo de puntuación. Los datos proporcionados dependen de las características que incluya en su solicitud. Como mínimo, la transcripción contiene la hora de inicio, la hora de finalización y la puntuación de confianza de cada palabra. En la siguiente sección, se muestra un ejemplo del resultado de una solicitud de transcripción básica que no incluía opciones ni características adicionales.
Todas las transcripciones por lotes se almacenan en buckets de Amazon S3. Puede optar por guardar la transcripción en su propio bucket de Amazon S3 o hacer que Amazon Transcribe utilice un bucket predeterminado seguro. Para obtener más información sobre la creación y el uso de buckets de Amazon S3, consulte Cómo trabajar con buckets.
Si desea que su transcripción se almacene en un bucket de Amazon S3 de su propiedad, especifique el URI del bucket en su solicitud de transcripción. Asegúrese de conceder a Amazon Transcribe permisos de escritura para este bucket antes de iniciar el trabajo de transcripción por lotes. Si especifica su propio bucket, la transcripción permanecerá en ese bucket hasta que la elimine.
Si no especifica un bucket de Amazon S3, Amazon Transcribe utiliza un bucket seguro administrado por el servicio y le proporciona un URI temporal que puede usar para descargar su transcripción. Tenga en cuenta que los URI temporales son válidos durante 15 minutos. Si recibe un error AccessDenied al usar el URI proporcionado, GetTranscriptionJob solicita un nuevo URI temporal para su transcripción.
Si opta por un bucket predeterminado, la transcripción se eliminará cuando su trabajo caduque (90 días). Si desea conservar su transcripción después de esta fecha de caducidad, debe descargarla.
Las transcripciones de streaming se devuelven mediante el mismo método que utilice para la secuencia.
sugerencia
Si desea convertir el resultado JSON en una transcripción paso a paso en formato Word, consulte este ejemplo de GitHub (para Python3)
Ejemplo de resultado
Las transcripciones proporcionan una transcripción completa en forma de párrafo, seguida de un desglose palabra por palabra, que proporciona datos para cada palabra y signo de puntuación. Esto incluye la hora de inicio, la hora de finalización y un tipo (pronunciation o punctuation).
El siguiente ejemplo es de un trabajo de transcripción por lotes básica que no incluía características adicionales. Con cada característica adicional que aplique a su solicitud de transcripción, obtendrá datos adicionales en el archivo de resultados de la transcripción.
Las transcripciones de los lotes básicos contienen dos secciones principales:
-
transcripts: contiene la transcripción completa en un bloque de texto. -
items: contiene información sobre cada palabra y signo de puntuación de la seccióntranscripts. -
audio_segments: un segmento de audio es una parte específica de una grabación de audio que contiene lenguaje hablado ininterrumpido, con pausas mínimas o descansos. Este segmento captura el flujo natural de la voz y se captura enaudio_segmentscon una hora de inicio y una hora de finalización. El elementoitemsde un segmento de audio es una secuencia de identificadores que corresponden a cada elemento del segmento.
Cada característica adicional que incluya en su solicitud de transcripción generará información adicional en la transcripción.
{ "jobName": "my-first-transcription-job", "accountId": "111122223333", "results": { "transcripts": [ { "transcript": "Welcome to Amazon Transcribe." } ], "items": [ { "id": 0, "start_time": "0.64", "end_time": "1.09", "alternatives": [ { "confidence": "1.0", "content": "Welcome" } ], "type": "pronunciation" }, { "id": 1, "start_time": "1.09", "end_time": "1.21", "alternatives": [ { "confidence": "1.0", "content": "to" } ], "type": "pronunciation" }, { "id": 2, "start_time": "1.21", "end_time": "1.74", "alternatives": [ { "confidence": "1.0", "content": "Amazon" } ], "type": "pronunciation" }, { "id": 3, "start_time": "1.74", "end_time": "2.56", "alternatives": [ { "confidence": "1.0", "content": "Transcribe" } ], "type": "pronunciation" }, { "id": 4, "alternatives": [ { "confidence": "0.0", "content": "." } ], "type": "punctuation" } ], "audio_segments": [ { "id": 0, "transcript": "Welcome to Amazon Transcribe.", "start_time": "0.64", "end_time": "2.56", "items": [ 0, 1, 2, 3, 4 ] } ] }, "status": "COMPLETED" }