As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Áudio
O recurso Automação de Dados do Amazon Bedrock (BDA) oferece um conjunto de saídas padrão para processar e gerar insights para arquivos de áudio. Veja abaixo uma visão detalhada de cada tipo de operação:
Resumo de áudio completo
O resumo de áudio completo gera um resumo geral de todo o áudio. Essa operação extrai os principais temas, eventos e informações apresentados ao longo do áudio e oferece um resumo conciso.
Transcrição de áudio completo
O recurso de transcrição de áudio completo oferece uma representação de texto completa de todo o conteúdo falado no áudio. Esse recurso usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui carimbo de data/hora, facilitando o processo de pesquisa do conteúdo de áudio com base nas palavras proferidas.
Rotulagem de locutor e canal
Para a transcrição gerada, você pode ativar a rotulagem do and/or alto-falante do canal. Isso dará a cada canal ou locutor um número e, em seguida, indicará na transcrição quando um canal está sendo usado e um locutor específico está falando. Esse rótulo aparece na resposta como “spk_” seguido de um número exclusivo para cada locutor (até trinta locutores). O primeiro locutor seria “spk_0", “spk_1” e assim por diante. Os canais de áudio são indicados de forma semelhante com o primeiro canal rotulado como “ch_0”, mas só podem ser rotulados em dois canais.
Resumo de tópico
O resumo de tópico de áudio separa o arquivo de áudio em seções chamadas tópicos e as resume para fornecer informações importantes. Esses tópicos recebem carimbos de data/hora para ajudar a colocá-los no arquivo de áudio como um todo. Esse recurso não está habilitado por padrão.
Moderação de conteúdo
A moderação de conteúdo usa dicas baseadas em áudio e texto para identificar e classificar conteúdo tóxico com base em voz em sete categorias diferentes:
-
Palavrões: discurso que contém palavras, frases ou acrônimos que são indelicados, vulgares ou ofensivos.
-
Discurso de ódio: discurso que critica, insulta, denuncia ou desumaniza uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e nacionalidade).
-
Sexual: discurso que indica interesse, atividade ou excitação sexual usando referências diretas ou indiretas a partes do corpo, características físicas ou sexo.
-
Insultos: discurso que inclui linguagem degradante, humilhante, zombeteira, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.
-
Violência ou ameaça: discurso que inclui ameaças com o objetivo de infligir dor, lesão ou hostilidade a uma pessoa ou grupo.
-
Gráfico: discurso que usa imagens visualmente descritivas e desagradavelmente vívidas. Em geral, esse tipo de linguagem é intencionalmente prolixo para ampliar o desconforto do destinatário.
-
Assédio ou abuso: discurso destinado a afetar o bem-estar psicológico do destinatário, incluindo termos humilhantes e objetificantes. Esse tipo de linguagem também é chamado de assédio.
Saída padrão de áudio
Esta seção se concentra nos diferentes objetos de resposta que você recebe ao executar a operação da API InvokeDataAutomation em um arquivo de áudio. Detalharemos abaixo cada seção do objeto de resposta e, em seguida, veremos uma resposta completa e preenchida para um documento de exemplo. A primeira seção que receberemos é metadata.
"metadata": { "asset_id": "0", "semantic_modality": "AUDIO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Audio/AWS_TCA-Call-Recording-2.wav", "sample_rate": 8000, "bitrate": 256000, "number_of_channels": 2, "codec": "pcm_s16le", "duration_millis": 237560, "format": "wav", "dominant_asset_language": "EN", "generative_output_language": "DEFAULT/EN" }
Esta seção detalha as informações sobre o arquivo, como local do S3, taxa de bits, canais de áudio e formato. Em seguida, analisamos audio_items.
dominant_asset_languageindica qual idioma está mais presente em uma peça de áudio com base na duração em segundos. generative_output_languageindica em qual idioma a saída da resposta estará. Quando definido como “DEFAULT”, ele usará o idioma dominante.
"audio_items": [ { "item_index": 0, "audio_segment_index": 0, "content": "Auto", "start_timestamp_millis": 9, "end_timestamp_millis": 119 }, ... ]
A seção de itens inclui um detalhamento do arquivo de áudio, som por som. Cada item geralmente tem o tamanho de uma palavra. O item_index indica a posição do item nos índices audio_items e o audio_segment_index indica onde ele está nos índices de segmentos, o que discutiremos a seguir.
"audio_segments": [ { "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "segment_index": 0, "type": "TRANSCRIPT", "text": "Auto sales, Cherry speaking. How can I help you?", "speaker": { "speaker_label": "spk_0" }, "channel": { "channel_label": "ch_0" }, "audio_item_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ], "language": "EN" }, ... ]
Aqui, obtemos um detalhamento do arquivo com base em períodos mais longos, em que cada segmento é igual a aproximadamente uma frase. Ele nos indica quais itens de áudio estão incluídos no segmento e o texto do próprio segmento. A seguir, vamos analisar a moderação de conteúdo.
Com a rotulagem de locutor e canal habilitada, é possível ver as seções speaker_label e channel_label que indicam qual locutor e canal estão presentes nesse segmento.
"content_moderation": [ { "id": "93068e72-290d-4aad-8717-a2cd0e02b0d0", "type": "AUDIO_MODERATION", "confidence": 0.0476, "start_timestamp_millis": 0, "end_timestamp_millis": 1970, "moderation_categories": [ { "category": "profanity", "confidence": 0.1582 }, ... ] }, ... ]
A seção de moderação de conteúdo examina cada segmento e o analisa em relação qualquer uma das sete categorias de moderação, fornecendo pontuações de confiança para cada seção. Nossa próxima seção é sobre tópicos.
"topics": [ { "topic_index": 0, "start_timestamp_millis": 0, "end_timestamp_millis": 36790, "summary": "As follows:\n\nSuzanne, a customer, recently had her Hyundai serviced at the auto sales shop where Carrie works. Suzanne had a 3 p.m. appointment and got her car serviced, which included an oil change and filter changes. However, when Suzanne left the shop, her oil light was still on, which she found concerning. Carrie acknowledged that this sometimes happens, even after a service visit, and assured Suzanne that she would look into the issue further.", "transcript": { "representation": { "text": "Auto sales, Cherry speaking. How can I help you? Yeah, hi Carrie, um, my name is Suzanne. I literally just left your shop. Um, I just went in and got my Hyundai service. Um, it just was, it just needed like filter error changes oil change and all that kind of stuff, um, but. When I left and my oil light is still on and I don't know why. Got it. You just got it serviced here, but when you drove off the light was still on. Is that what happened? Yeah, yeah, yeah, like I literally like I had a 3 p.m. appointment and I just got it, you know, believe it or not, this, this happens." } }, "audio_segment_indices": [ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ] }, ... ]
As seções de tópico são o próximo nível de granularidade dos segmentos. Os tópicos são agrupamentos de segmentos divididos por conceitos de uma maneira aproximada. Cada tópico vem com um resumo gerado do tópico e o teste exato do tópico. Nossa parte final em uma resposta são as estatísticas.
"statistics": { "word_count": 749, "topic_count": 4 }
Esta seção resume as informações sobre o arquivo de áudio. Isso inclui a contagem de palavras e o total de tópicos.