影片理解 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

影片理解

Amazon Nova 模型可讓您在承載中包含單一影片,該影片可以 base64 格式或透過 Amazon S3 URI 提供。使用 base64 方法時,整體承載大小必須保持在 25 MB 內。不過,您可以指定 Amazon S3 URI 來了解影片。此方法可讓您利用模型處理較長的影片 (大小上限為 1 GB),而不會受限於整體承載大小限制。Amazon Nova 模型可以分析傳遞的影片並回答問題、分類影片,並根據提供的指示摘要影片中的資訊。

媒體檔案類型

支援的檔案格式

輸入方法

影片

MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

Base64

建議用於小於 25 MB 的承載大小

Amazon S3 URL

建議用於大於 25 MB 到 2 GB 的承載。個別檔案必須是 1 GB 或更小。

無論影片是以 base64 傳遞 (只要符合大小限制) 或透過 Amazon S3 位置傳遞,影片輸入字符計數都沒有差異。

請注意,對於 3GP 檔案格式,在 API 請求中傳遞的「格式」欄位格式應為「三_gp」。

使用 Amazon S3 時,請確定您已將「內容類型」中繼資料設定為影片的正確 MIME 類型。

影片大小資訊

Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真 (根據輸入向上或向下) 調整大小為 672*672 平方維,然後再提供給模型。模型會根據影片的長度使用動態取樣策略。對於 Amazon Nova Lite 和 Amazon Nova Pro,影片持續時間小於或等於 16 分鐘,採用每秒 1 個影格 (FPS) 取樣率。不過,對於長度超過 16 分鐘的影片,取樣率會降低,以維持一致的 960 影格取樣,影格取樣率會隨之而變化。相較於較長的影片內容,此方法旨在為較短影片提供更準確的場景層級影片理解。對於低動作,建議您將影片長度保留在 1 小時內,對於動作較高的任何動作,則保留在 16 分鐘內。對於 Amazon Nova Premier,1 個 FPS 取樣率的套用上限為 3,200 個影格。

分析 4k 版本的影片和 Full HD 版本時,應該沒有差異。同樣地,由於取樣率最多為 1 個 FPS,因此 60 個 FPS 影片應執行,以及 30 個 FPS 影片。由於影片大小的 1 GB 限制,使用高於所需的解析度和 FPS 並不有用,並且會限制符合該大小限制的影片長度。您可能想要預先處理超過 1 GB 的影片。

影片字符

影片的長度是影響產生的字符數量的主要因素。若要計算近似成本,您應該將預估的影片字符數量乘以所使用特定模型的每個字符價格。

下表提供 Amazon Nova Pro、Lite 和 Micro 每個影片長度的影格取樣和字符使用率近似值:

video_duration

10 秒

30 秒

16 分鐘

20 分鐘

30 分鐘。

45 分鐘

1 小時

1.5 小時

frame_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0.755

0.5

0.35556

0.14

0.096

預估字符計數

2,880

8,640

276,480

276,480

276,480

276,480

276,480

276,480

下表提供每個 Amazon Nova Premier 影片長度的影格取樣和字符使用率近似值:

video_duration

10 秒

30 秒

16 分鐘

20 分鐘

30 分鐘。

45 分鐘

1 小時

1.5 小時

frame_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

預估字符計數

2,880

8,640

276,480

345,600

518,400

777,600