视频理解 - Amazon Nova

视频理解

Amazon Nova 模型允许您在有效载荷中包含单个视频,可采用 base64 格式提供,也可以通过 Amazon S3 URI 提供。使用 base64 方法时,总体有效载荷大小必须保持在 25 MB 以内。但是,您可以指定 Amazon S3 URI 来理解视频。此方法让您能够将模型用于更长的视频(最大可达 1 GB),而不受总体有效载荷大小限制的约束。Amazon Nova 模型可以分析传递的视频并回答问题,对视频进行分类,并根据提供的说明汇总视频中的信息。

媒体文件类型

支持的文件格式

输入方法

视频

MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

Base64

建议用于 25 MB 以下的有效载荷

Amazon S3 URI

建议用于大于 25 MB 但小于 2 GB 的有效载荷。单个文件必须为 1 GB 或更小。

无论视频是作为 base64(只要符合大小限制)还是通过 Amazon S3 位置传递,视频输入词元数量都没有差异。

请注意,对于 3GP 文件格式,API 请求中传递的“格式”字段的格式应为“three_gp”。

使用 Amazon S3 时,请确保将视频的“Content-Type”元数据设置为正确的 MIME 类型。

视频大小信息

Amazon Nova 视频理解功能支持多宽高比。将所有视频的大小按畸变调整为(根据输入,可能是放大或缩小)672 x 672 平方尺寸,然后再将其馈送给模型。该模型根据视频的长度使用动态采样策略。对于 Amazon Nova Lite 和 Amazon Nova Pro,如果视频时长小于或等于 16 分钟,则采用每秒 1 帧 (FPS) 的采样率。但是,对于时长超过 16 分钟的视频,为了保持一致的 960 帧采样,采样率会降低,帧采样率会相应变化。这种方法旨在为较短的视频提供比较长的视频内容更准确的场景级视频理解。对于低动态视频,我们建议您将视频时长保持在 1 小时以内,对于任何较高动态的视频,请将视频时长保持在 16 分钟以内。对于 Amazon Nova Premier,1 FPS 采样率最高可达 3,200 帧。

在分析 4k 版本的视频和全高清版本视频时,应该没有区别。同样,采样率最多为 1 FPS,因此 60 FPS 的视频应该与 30 FPS 的视频的表现一样好。视频大小限制为 1 GB,因此使用高于所需分辨率和 FPS 并没有好处,而且会限制符合该大小限制的视频时长。您可能需要预处理大小超过 1 GB 的视频。

视频词元

视频的时长是影响生成词元数量的主要因素。要计算近似成本,应将视频词元的估计数量乘以所使用的特定模型的每词元价格。

下表提供了 Amazon Nova Pro、Lite 和 Micro 的每个视频长度的帧采样和令牌利用率的一些近似值:

video_duration

10 秒

30 秒

16 分钟

20 分钟

30 分钟

45 分钟

1 小时

1.5 小时

frames_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0.755

0.5

0.35556

0.14

0.096

估计的词元数量

2,880

8,640

276,480

276,480

276,480

276,480

276,480

276,480

下表提供了 Amazon Nova Premier 的每个视频长度的帧采样和令牌利用率的一些近似值:

video_duration

10 秒

30 秒

16 分钟

20 分钟

30 分钟

45 分钟

1 小时

1.5 小时

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

估计的词元数量

2,880

8,640

276,480

345,600

518,400

777,600