Vídeos - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Vídeos

A BDA oferece um conjunto de saídas padrão para processar e gerar insights para vídeos. Veja abaixo uma visão detalhada de cada tipo de operação:

Resumo de vídeo completo

O resumo de vídeo completo gera um resumo geral de todo o vídeo. Essa operação extrai os principais temas, eventos e informações apresentados ao longo do vídeo e oferece um resumo conciso. O resumo de vídeo completo é otimizado para conteúdo com diálogos descritivos, como visões gerais de produtos, treinamentos, noticiários, programas de entrevistas e documentários. A BDA tentará fornecer um nome para cada locutor exclusivo com base em sinais de áudio (p. ex., o locutor se apresenta) ou sinais visuais (p. ex., um slide de apresentação mostra o nome do locutor) no resumo de vídeo completo e no resumo de cena. Quando o nome de um locutor exclusivo não for resolvido, ele será representado por um número exclusivo (p. ex., speaker_0).

Resumo de capítulos

O resumo de capítulos de vídeo fornece resumos descritivos de cenas individuais em um vídeo. Um capítulo de vídeo é uma sequência de cenas que formam uma unidade coerente de ação ou narrativa dentro do vídeo. Esse recurso divide o vídeo em segmentos significativos com base em sinais visuais e sonoros, fornece carimbos de data/hora para esses segmentos e resume cada um.

Taxonomia do IAB

A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar cenas de vídeo com base em elementos visuais e de áudio. Na versão prévia, a BDA atenderá a 24 categorias de nível superior (L1) e 85 categorias de nível secundário (L2). Para baixar a lista de categorias do IAB atendias pela BDA, clique aqui;

Transcrição de áudio completo

A transcrição de áudio completo oferece uma representação de texto completa de toda a fala no arquivo de áudio. Esse recurso usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui a identificação do locutor, facilitando o processo de pesquisa do conteúdo de áudio com base no locutor.

Texto em vídeo

Esse recurso detecta e extrai o texto que aparece visualmente no vídeo. Ele pode identificar texto estático (como títulos ou legendas) e texto dinâmico (como texto em movimento em elementos gráficos). De modo semelhante à detecção de texto de imagem, o recurso fornece informações da caixa delimitadora para cada elemento de texto detectado, permitindo uma localização precisa em quadros de vídeo.

Detecção de logotipo

Esse recurso identifica logotipos em um vídeo e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado no quadro de vídeo e as pontuações de confiança. Esse recurso não está habilitado por padrão.

Moderação de conteúdo

A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em um vídeo. A BDA atenderá a sete categorias de moderação: nudez explícita e não explícita de partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool e símbolos de ódio. O texto explícito em vídeos não é sinalizado.

As caixas delimitadoras e as pontuações de confiança associadas podem ser habilitadas ou desabilitadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização no arquivo de vídeo. Por padrão, o resumo de vídeo completo, o resumo de cena e a detecção de texto de vídeo estão habilitados.

nota

Só é possível aplicar o recurso a uma faixa de áudio por vídeo. Não é possível usar formatos de arquivo de legenda (p. ex., SRT, VTT etc.).

Saída de vídeo padrão

Veja a seguir um exemplo de saída padrão para um vídeo processada por meio da BDA.

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

Esta seção inicial discute as informações de metadados referentes ao vídeo. Isso inclui a localização do bucket, o formato, a taxa de quadros e outras informações importantes.

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

Este é um exemplo de uma tomada de vídeo em uma resposta. As tomadas representam pequenas partes de um vídeo, normalmente associadas a uma edição ou corte no vídeo. As tomadas contêm elementos iniciais e finais, além de um elemento chapter_indicies. Esse elemento indica de qual seção maior do vídeo, chamada de capítulo, a tomada faz parte.

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Os capítulos são partes maiores de um vídeo. Portanto, contêm informações de início e fim, como tomadas e um elemento shot_indicies. Os shot_indicies informam quais tomadas estão dentro de um capítulo. Finalmente, o elemento de resumo oferece um resumo gerado do conteúdo do capítulo.

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

A menor granularidade de um vídeo é um quadro, representando uma única imagem dentro de um vídeo. Vale observar que os quadros têm dois elementos de resposta, content_moderation e text_words. A primeira, content_moderation, fornece informações com base nas categorias de moderação de conteúdo do quadro, se alguma for detectada. A segunda, text_words, fornece uma localização e informações sobre qualquer texto que apareça em um vídeo, como legendas ocultas.

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

Por fim, as estatísticas fornecem um detalhamento das informações sobre a detecção, como o número de tomadas, locutores e capítulos em um determinado vídeo.