视频 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

视频

BDA 提供了一组标准输出,用于处理和生成视频见解。以下是每种操作类型的详细介绍:

完整视频摘要

完整视频摘要生成整个视频的总体摘要。它将整个视频中呈现的关键主题、事件和信息提炼成简洁的摘要。完整的视频摘要针对带有描述性对话的内容进行了优化,例如产品概述、培训、新闻广播、脱口秀和纪录片。BDA 将尝试根据完整视频摘要和场景摘要中的音频信号(例如,演讲者自我介绍)或视觉信号(例如,演示幻灯片显示演讲者的姓名)为每个唯一的演讲者命名。当无法解析唯一发言者的姓名时,他们将由一个唯一的数字(例如 seaker_0)表示。

章节摘要

视频章节摘要为视频中的各个场景提供了描述性摘要。视频章节是一系列镜头,在视频中形成连贯的动作或叙事单元。此功能根据视觉和听觉线索将视频分解为有意义的片段,为这些片段提供时间戳,并对每个片段进行汇总。

IAB 分类法

互动广告局 (IAB) 分类采用标准的广告分类法,根据视觉和音频元素对视频场景进行分类。对于预览版,BDA 将支持 24 个顶级 (L1) 类别和 85 个二级 (L2) 类别。要下载 BDA 支持的 IAB 类别列表,请单击此处。

完整音频记录

完整的音频转录功能提供了音频文件中所有语音的完整文本表示。它使用先进的语音识别技术来准确转录对话、旁白和其他音频元素。转录包括说话者识别,便于根据说话者浏览和搜索音频内容。

视频中的文字

此功能可检测和提取视频中直观显示的文本。它可以识别静态文本(如标题或字幕)和动态文本(例如在图形中移动文本)。与图像文本检测类似,它为每个检测到的文本元素提供边界框信息,从而可以在视频帧中进行精确定位。

徽标检测

此功能可识别视频中的徽标并提供边界框信息,指示视频帧中检测到的每个徽标的坐标以及置信度分数。默认情况下,此功能未启用。

内容审核

内容审核可检测视频中的不当、不想要或令人反感的内容。BDA 支持 7 个审核类别:露骨的、私密部位的非露骨裸露和接吻、泳装或内衣、暴力、毒品和烟草、酒精、仇恨符号。视频中的露骨文字不会被标记。

可以为文本检测等相关功能启用或禁用边界框和相关的置信度分数,以便在视频文件中提供位置坐标和时间戳。默认情况下,启用完整视频摘要、场景摘要和视频文本检测。

注意

每个视频仅支持一条音轨。不支持字幕文件格式(例如 SRT、VTT 等)。

视频标准输出

以下是通过 BDA 处理的视频的标准输出示例:

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

第一部分讨论有关视频的元数据信息。这包括存储桶的位置、格式、帧速率和其他关键信息。

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

这是响应中镜头元素的示例。镜头代表视频的一小部分,通常与视频中的剪辑或剪辑有关。镜头包含开始和结束元素,还包括一个章节索引元素。此元素表示镜头属于视频中哪个较大的部分(称为章节)。

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

章节是视频中较大的片段。然后包含开始和结束信息,例如镜头,以及 shot_indicies 元素。shot_indicies 会告诉你章节中有哪些镜头。最后,摘要元素提供了本章内容的生成的摘要。

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

视频的最小粒度是帧,表示视频中的单个图像。框架有两个特别明显的响应元素,内容审核和文本_words。首先,content_moderation 根据内容审核类别为您提供有关帧内容的信息(如果检测到任何内容)。第二个是 text_words,它为你提供了视频中出现的任何文本的位置和信息,例如隐藏字幕。

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

最后,统计数据提供了有关检测信息的细分,例如给定视频中有多少镜头、扬声器和章节。