Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Audio
La característica Automatización de Datos de Amazon Bedrock (BDA) ofrece un conjunto de salidas estándar para procesar y generar información para los archivos de audio. A continuación, se ofrece un análisis detallado de cada tipo de operación:
Resumen de audio completo
El resumen completo del vídeo genera un resumen general de todo el vídeo. Extrae los temas, eventos e información clave presentados a lo largo del vídeo y los resume de forma concisa.
Transcripción completa del audio
La característica de transcripción completa de audio proporciona una representación textual completa de todo el contenido hablado del audio. Utiliza tecnología avanzada de reconocimiento de voz para transcribir con precisión el diálogo, la narración y otros elementos de audio. La transcripción incluye la marca de tiempo, lo que facilita la navegación y la búsqueda en el contenido de audio en función de las palabras habladas.
Etiquetado de interlocutores y canales
Para la transcripción generada, puede habilitar el etiquetado de los and/or altavoces del canal. Esto asignará un número a cada canal o interlocutor y, a continuación, indicará en la transcripción cuándo se está utilizando un canal y cuándo está hablando un interlocutor en particular. Esta etiqueta aparece en la respuesta como “spk_” seguida de un número único para cada interlocutor (hasta 30 interlocutores). El primer interlocutor sería “spk_0", «spk_1", y así sucesivamente. Los canales de audio se indican de manera similar, con el primer canal etiquetado como “ch_0", pero solo se pueden etiquetar dos canales.
Resumen del tema
El resumen del tema de audio separa el archivo de audio en secciones denominadas temas y las resume para proporcionar información clave. Estos temas reciben marcas de tiempo para ayudar a colocarlos en el archivo de audio en su conjunto. Esta característica no está habilitada de forma predeterminada.
Moderación de contenido
La moderación de contenido utiliza señales de audio y texto para identificar y clasificar el contenido tóxico generado por la voz en siete categorías diferentes:
-
Blasfemia: discurso que contiene palabras, frases o acrónimos que son de mala educación, vulgares u ofensivos.
-
Incitación al odio: discurso que critica, insulta, denuncia o deshumaniza a una persona o grupo por su identidad, ya sea de raza, etnia, género, religión, orientación sexual, capacidad y origen nacional.
-
Sexual: discurso que indica interés, actividad o excitación sexual mediante referencias directas o indirectas a partes del cuerpo o rasgos físicos o al sexo.
-
Insultos: discurso que incluye lenguaje degradante, humillante, burlón, insultante o denigrante. Este tipo de lenguaje también se denomina intimidación.
-
Violencia o amenaza: discurso que incluye amenazas que tienen por objeto infligir dolor, lesión u hostilidad a una persona o grupo.
-
Gráfico: discurso que utiliza imágenes visualmente descriptivas, detalladas y desagradablemente vívidas. Este tipo de lenguaje suele ser intencionalmente detallado para aumentar la incomodidad del destinatario.
-
Acoso o abuso: discurso destinado a afectar al bienestar psicológico del destinatario, incluidos términos degradantes y deshumanizantes. Este tipo de lenguaje también se denomina acoso.
Salida de audio estándar
Esta sección se centra en los diferentes objetos de respuesta que se reciben al ejecutar la operación de la API InvokeDataAutomation en un archivo de audio. A continuación, desglosaremos cada sección del objeto de respuesta y, después, veremos una respuesta rellena completa para un documento de ejemplo. La primera sección que recibiremos es metadata.
"metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav", "dominant_asset_language": "EN", "generative_output_language": "DEFAULT/EN" }
En esta sección se desglosa la información sobre el archivo, como su ubicación en s3, la velocidad de bits, los canales de audio y el formato. A continuación, analizamos audio_items.
dominant_asset_languageindica qué idioma está más presente en una pieza de audio en función de la duración en segundos. generative_output_languageindica en qué idioma estará la salida de la respuesta. Si se establece en «DEFAULT», utilizará el idioma dominante.
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 }, ... ]
La sección de elementos incluye un desglose del archivo de audio por sonido. Por lo general, cada elemento tiene una longitud aproximada de una palabra. item_index indica el lugar que ocupa el elemento en los índices audio_items y audio_segment_index indica su ubicación en los índices de los segmentos, algo que veremos a continuación.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "speaker": { "speaker_label": "spk_0" }, "channel": { "channel_label": "ch_0" }, "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ], "language": "EN" }, ... ]
Aquí obtenemos un desglose del archivo en función de períodos de tiempo más largos, en los que cada segmento equivale aproximadamente a una oración. Nos indica qué elementos de audio están incluidos en el segmento y el texto del propio segmento. A continuación, veamos la moderación del contenido.
Con el etiquetado de interlocutores y canales activado, puede ver las secciones speaker_label y channel_label, que indican qué interlocutor y canal están presentes en este segmento.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 }, ... ] }, ... ]
La sección de moderación de contenido recorre cada segmento individual y lo analiza en función de cualquiera de las siete categorías de moderación, proporcionando puntuaciones de confianza para cada sección. Nuestra siguiente sección son los temas.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] }, ... ]
Las secciones de temas representan el siguiente nivel de granularidad de los segmentos. Son agrupaciones de segmentos que se desglosan de forma general por conceptos. Cada tema incluye un resumen generado del tema y la prueba exacta del tema. La parte final de la respuesta son las estadísticas.
"statistics": { "word_count": 749, "topic_count": 4 }
En esta sección se resume la información sobre el archivo de audio. Esto incluye el recuento de palabras y el total de temas.