本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
影片理解
Amazon Nova 模型可讓您在承載中包含單一影片,該影片可以 base64 格式或透過 Amazon S3 URI 提供。使用 base64 方法時,整體承載大小必須保持在 25 MB 內。不過,您可以指定 Amazon S3 URI 來了解影片。此方法可讓您利用模型處理較長的影片 (大小上限為 1 GB),而不會受限於整體承載大小限制。Amazon Nova 模型可以分析傳遞的影片並回答問題、分類影片,並根據提供的指示摘要影片中的資訊。
媒體檔案類型 |
支援的檔案格式 |
輸入方法 |
---|---|---|
影片 |
MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP |
Base64 建議用於小於 25 MB 的承載大小 |
Amazon S3 URL 建議用於大於 25 MB 到 2 GB 的承載。個別檔案必須是 1 GB 或更小。 |
無論影片是以 base64 傳遞 (只要符合大小限制) 或透過 Amazon S3 位置傳遞,影片輸入字符計數都沒有差異。
請注意,對於 3GP 檔案格式,在 API 請求中傳遞的「格式」欄位格式應為「三_gp」。
使用 Amazon S3 時,請確定您已將「內容類型」中繼資料設定為影片的正確 MIME 類型。
影片大小資訊
Amazon Nova 影片理解功能支援多長寬比。所有影片都會以失真 (根據輸入向上或向下) 調整大小為 672*672 平方維,然後再提供給模型。模型會根據影片的長度使用動態取樣策略。對於 Amazon Nova Lite 和 Amazon Nova Pro,影片持續時間小於或等於 16 分鐘,採用每秒 1 個影格 (FPS) 取樣率。不過,對於長度超過 16 分鐘的影片,取樣率會降低,以維持一致的 960 影格取樣,影格取樣率會隨之而變化。相較於較長的影片內容,此方法旨在為較短影片提供更準確的場景層級影片理解。對於低動作,建議您將影片長度保留在 1 小時內,對於動作較高的任何動作,則保留在 16 分鐘內。對於 Amazon Nova Premier,1 個 FPS 取樣率的套用上限為 3,200 個影格。
分析 4k 版本的影片和 Full HD 版本時,應該沒有差異。同樣地,由於取樣率最多為 1 個 FPS,因此 60 個 FPS 影片應執行,以及 30 個 FPS 影片。由於影片大小的 1 GB 限制,使用高於所需的解析度和 FPS 並不有用,並且會限制符合該大小限制的影片長度。您可能想要預先處理超過 1 GB 的影片。
影片字符
影片的長度是影響產生的字符數量的主要因素。若要計算近似成本,您應該將預估的影片字符數量乘以所使用特定模型的每個字符價格。
下表提供 Amazon Nova Pro、Lite 和 Micro 每個影片長度的影格取樣和字符使用率近似值:
video_duration |
10 秒 |
30 秒 |
16 分鐘 |
20 分鐘 |
30 分鐘。 |
45 分鐘 |
1 小時 |
1.5 小時 |
---|---|---|---|---|---|---|---|---|
frame_to_sample |
10 |
30 |
960 |
960 |
960 |
960 |
960 |
960 |
sample_rate_fps |
1 |
1 |
1 |
0.755 |
0.5 |
0.35556 |
0.14 |
0.096 |
預估字符計數 |
2,880 |
8,640 |
276,480 |
276,480 |
276,480 |
276,480 |
276,480 |
276,480 |
下表提供每個 Amazon Nova Premier 影片長度的影格取樣和字符使用率近似值:
video_duration |
10 秒 |
30 秒 |
16 分鐘 |
20 分鐘 |
30 分鐘。 |
45 分鐘 |
1 小時 |
1.5 小時 |
---|---|---|---|---|---|---|---|---|
frame_to_sample |
10 |
30 |
960 |
1200 |
1800 |
2700 |
||
sample_rate_fps |
1 |
1 |
1 |
1 |
1 |
1 |
||
預估字符計數 |
2,880 |
8,640 |
276,480 |
345,600 |
518,400 |
777,600 |