影片理解 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

影片理解

注意

本文件適用於 Amazon Nova 第 1 版。如需 Amazon Nova 2 影片理解指南,請造訪影片理解

Amazon Nova 模型可讓您在負載中包含單一影片,該影片可以 base64 格式或透過 Amazon S3 URI 提供。當使用 base64 方法時,整體負載大小必須保持在 25 MB 內。不過,您可以指定 Amazon S3 URI 用於影片理解。此方法可讓您利用模型處理較長的影片 (大小上限為 1 GB),而不會受限於整體負載大小限制。Amazon Nova 模型可以分析已傳遞的影片,並根據提供的指示回答問題、分類影片和總結影片內的資訊。

媒體檔案類型

支援的檔案格式

輸入方法

影片

MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

Base64

建議用於小於 25 MB 的負載大小

Amazon S3 URL

建議用於大於 25 MB 且不超過 2 GB 的負載。個別檔案必須是 1 GB 或更小。

無論影片是以 base64 格式傳遞 (只要符合大小限制) 還是透過 Amazon S3 位置傳遞,影片輸入詞元計數都沒有差異。

請注意,對於 3GP 檔案格式,在 API 請求中傳遞的「格式」欄位應采用「three_gp」格式。

當使用 Amazon S3 時,請確定您已將「內容類型」中繼資料設定為影片的正確 MIME 類型。

影片大小資訊

Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真的方式調整大小 (根據輸入放大或縮小) 至 672*672 正方形維度,然後再饋送至模型。模型會根據影片的長度使用動態取樣策略。對於 Amazon Nova Lite 和 Amazon Nova Pro,如果影片持續時間小於或等於 16 分鐘,則採用每秒 1 個影格 (FPS) 的取樣率。不過,對於長度超過 16 分鐘的影片,取樣率會降低,以維持取樣的影格數一致為 960,影格取樣率會隨之而變化。相較於較長的影片內容,此方法旨在為較短影片提供更準確的場景層級影片理解。對於動態內容較少的影片,建議您將影片長度保持在 1 小時內,對於動態內容較多的影片,則建議保持在 16 分鐘內。對於 Amazon Nova Premier,1 FPS 取樣率的套用上限為 3,200 個影格。

分析影片的 4k 版本和全高清版本時,應該沒有差異。同樣地,由於取樣率最多為 1 FPS,因此 60 FPS 影片的執行效果與 30 FPS 影片一樣。由於影片大小的 1 GB 限制,使用高於所需的解析度和 FPS 並無益處,並且會限制符合該大小限制的影片長度。您可能需要預先處理超過 1 GB 的影片。

影片詞元

影片的長度是影響生成詞元數量的主要因素。若要計算近似成本,您應該將預估的視訊詞元數量乘以所用特定模型的每詞元價格。

下表提供 Amazon Nova Pro、Lite 和 Micro 每個影片長度的影格取樣和詞元使用率近似值:

video_duration

10 秒

30 秒

16 分鐘

20 分鐘

30 分鐘

45 分鐘

1 小時

1.5 小時

frame_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0.755

0.5

0.35556

0.14

0.096

預估詞元計數

2,880

8,640

276,480

276,480

276,480

276,480

276,480

276,480

下表提供針對 Amazon Nova Premier 的每段影片長度之影格取樣和詞元使用率的一些近似值:

video_duration

10 秒

30 秒

16 分鐘

20 分鐘

30 分鐘

45 分鐘

1 小時

1.5 小時

frame_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

預估詞元計數

2,880

8,640

276,480

345,600

518,400

777,600

下表提供 Amazon Nova Lite 1.5 每個影片長度的影格取樣和字符使用率近似值

video_duration

10 秒

30 秒

16 分鐘

20 分鐘

30 分鐘

45 分鐘

1 小時

1.5 小時

frame_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

預估詞元計數

2,880

8,640

276,480

345,600

518,400

777,600