As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Vídeos
O BDA oferece um conjunto de saídas padrão para processar e gerar insights para vídeos. Aqui está uma visão detalhada de cada tipo de operação:
Resumo completo do vídeo
O resumo completo do vídeo gera um resumo geral de todo o vídeo. Ele destila os principais temas, eventos e informações apresentados ao longo do vídeo em um resumo conciso. O resumo completo do vídeo é otimizado para conteúdo com diálogos descritivos, como visões gerais de produtos, treinamentos, noticiários, programas de entrevistas e documentários. O BDA tentará fornecer um nome para cada palestrante exclusivo com base em sinais de áudio (por exemplo, o palestrante se apresenta) ou sinais visuais (por exemplo, um slide de apresentação mostra o nome do palestrante) nos resumos completos do vídeo e nos resumos da cena. Quando o nome de um locutor exclusivo não for resolvido, ele será representado por um número exclusivo (por exemplo, speaker_0).
Resumos dos capítulos
O resumo do capítulo de vídeo fornece resumos descritivos de cenas individuais em um vídeo. Um capítulo de vídeo é uma sequência de cenas que formam uma unidade coerente de ação ou narrativa dentro do vídeo. Esse recurso divide o vídeo em segmentos significativos com base em sinais visuais e sonoros, fornece registros de data e hora para esses segmentos e resume cada um.
Taxonomia do IAB
A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar cenas de vídeo com base em elementos visuais e de áudio. Para o Preview, o BDA suportará 24 categorias de nível superior (L1) e 85 categorias de segundo nível (L2). Para baixar a lista de categorias do IAB suportadas pelo BDA, clique aqui.
Transcrição de áudio completa
O recurso de transcrição de áudio completo fornece uma representação de texto completa de toda a fala no arquivo de áudio. Ele usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui a identificação do alto-falante, facilitando a navegação e a pesquisa pelo conteúdo de áudio com base no alto-falante.
Texto em vídeo
Esse recurso detecta e extrai o texto que aparece visualmente no vídeo. Ele pode identificar texto estático (como títulos ou legendas) e texto dinâmico (como texto em movimento em gráficos). Semelhante à detecção de texto de imagem, ela fornece informações da caixa delimitadora para cada elemento de texto detectado, permitindo uma localização precisa em quadros de vídeo.
Detecção de logotipo
Esse recurso identifica logotipos em um vídeo e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado no quadro do vídeo e as pontuações de confiança. Esse recurso não está habilitado por padrão.
Moderação de conteúdo
A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em um vídeo. O BDA suporta 7 categorias de moderação: nudez explícita e não explícita de partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool, símbolos de ódio. O texto explícito nos vídeos não é sinalizado.
As caixas delimitadoras e as pontuações de confiança associadas podem ser ativadas ou desativadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização e registros de data e hora no arquivo de vídeo. Por padrão, o resumo completo do vídeo, o resumo da cena e a detecção de texto do vídeo estão ativados.
nota
Somente uma faixa de áudio por vídeo é suportada. Os formatos de arquivo de legenda (por exemplo, SRT, VTT etc.) não são suportados.
Saída padrão de vídeo
Veja a seguir um exemplo de uma saída padrão para um vídeo processado por meio do BDA:
{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },
Esta seção inicial discute as informações de metadados sobre o vídeo. Isso inclui a localização do bucket, o formato, a taxa de quadros e outras informações importantes.
"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },
Esse é um exemplo de um elemento de captura em uma resposta. As fotos representam pequenas partes de um vídeo, normalmente associadas a uma edição ou corte no vídeo. As fotos contêm elementos inicial e final, além de um elemento chapter_indicies. Esse elemento indica de qual seção maior do vídeo, chamada de capítulo, a foto faz parte.
"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
Os capítulos são partes maiores de um vídeo. Em seguida, contenha informações de início e fim, como fotos e um elemento shot_indicies. shot_indicies informam quais fotos estão dentro de um capítulo. Finalmente, o elemento de resumo fornece um resumo gerado do conteúdo do capítulo.
"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },
A menor granularidade de um vídeo é um quadro, representando uma única imagem dentro de um vídeo. Os quadros têm dois elementos de resposta notáveis, content_moderation e text_words. A primeira, content_moderation, fornece informações com base nas categorias de moderação de conteúdo sobre o conteúdo do quadro, se alguma for detectada. A segunda, text_words, fornece uma localização e informações sobre qualquer texto que apareça em um vídeo, como legendas ocultas.
"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }
Por fim, as estatísticas fornecem um detalhamento das informações sobre a detecção, como quantas fotos, alto-falantes e capítulos estão em um determinado vídeo.