視覺理解提示最佳實務 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

視覺理解提示最佳實務

注意

本文件適用於 Amazon Nova 第 1 版。如需有關如何在 Amazon Nova 2 中提示多模態理解的資訊,請參閱提示多模態輸入

Amazon Nova 模型系列配備新穎的視覺功能,讓模型能夠理解和分析影像和影片,從而解鎖令人興奮的多模態互動機會。下列各節概述在 Amazon Nova 中處理影像和影片的指導方針。這包括最佳實務、程式碼範例和需要考慮的相關限制。

您提供的影像或影片品質越高,模型越有可能準確了解媒體檔案中的資訊。確保影像或影片清晰且無過度模糊或像素化,以確保結果更準確。如果影像或影片影格包含重要的文字資訊,請確認文字清晰易讀且不會太小。避免只為了放大文字而裁剪關鍵視覺上下文。

Amazon Nova 模型可讓您在負載中包含單一影片,該影片可以 base64 格式或透過 Amazon S3 URI 提供。當使用 base64 方法時,整體負載大小必須小於 25 MB。不過,您可以指定 Amazon S3 URI 用於影像、影片和文件理解。使用 Amazon S3 可讓您利用模型處理更大型檔案和多個媒體檔案,而不受整體負載大小限制的約束。Amazon Nova 可以分析輸入影片,並根據提供的指示回答問題、分類影片和總結影片內的資訊。

Amazon Nova 模型可讓您在負載中包含多個影像。總負載大小不能超過 25 MB。Amazon Nova 模型可以分析傳遞的影像,並根據提供的指示回答問題、分類影像和總結影像。

影像資訊

媒體檔案類型

支援的檔案格式

輸入方法

影像

PNG、JPG、JPEG、GIF、WebP

Base64 和 Amazon S3 URI

影片資訊

格式

MIME 類型

影片編碼

MKV

影片/x-matroska

H.264

MOV

影片/quicktime

H.264

H.265

ProRES

MP4

影片/mp4

DIVX/XVID

H.264

H.265

J2K (JPEG2000)

MPEG-2

MPEG-4 第 2 部分

VP9

WEBM

影片/webm

VP8

VP9

FLV

影片/x-flv

FLV1

MPEG

影片/mpeg

MPEG-1

MPG

影片/mpg

MPEG-1

WMV

影片/wmv

MSMPEG4v3 (MP43)

3GPP

影片/3gpp

H.264

無論影片是以 base64 格式傳遞 (只要符合大小限制) 還是透過 Amazon S3 位置傳遞,影片輸入詞元計數都沒有差異。

請注意,對於 3GP 檔案格式,在 API 請求中傳遞的「格式」欄位應采用「three_gp」格式。

當使用 Amazon S3 時,請確定已將「內容類型」中繼資料設定為影片的正確 MIME 類型

長影片和動態內容較多的影片

此模型透過以基礎速率每秒 1 個影格 (FPS) 取樣影片影格來理解影片。在影片中擷取詳細資訊與消耗所使用的輸入詞元之間取得平衡,這會影響成本、延遲和影片長度上限。雖然每秒取樣一個事件應該足以處理一般使用案例,但諸如運動影片等高動態影片的某些使用案例可能無法正常運作。

為了處理較長的影片,對於長度超過 16 分鐘的影片,Amazon Nova Lite 和 Amazon Nova Pro 會將取樣率降低至固定的 960 影格,這些影格會均勻分布在影片的整個長度中。這表示當影片長度超過 16 分鐘時,FPS 越低,擷取的詳細資訊也越少。這可實現諸如對較長影片進行摘要等使用案例,但對於動態內容較多且具有重要詳細資訊的影片,則會讓問題加劇。對於 Amazon Nova Premier,1 FPS 取樣率的套用上限為 3,200 個影格。

在許多情況下,可以透過使用預先處理步驟和多個呼叫,在較長的影片上取得 1 FPS 的取樣。影片可以分割成較小的區段,然後使用模型的多模型功能來分析每個區段。系統會彙總回應,並透過使用文字轉文字的最終步驟產生最終答案。請注意,以這種方式分割影片時,可能會遺失上下文。這類似於 RAG 分塊使用案例中的權衡,並且許多相同的風險降低技術同樣適用,例如滑動視窗。

請注意,由於分析是平行進行的,分段影片也可能減少延遲,但可能會產生顯著更多的輸入詞元,從而影響成本。

延遲

影片的大小可能很大。雖然我們提供方法,透過將檔案上傳至 Amazon S3 來處理高達 1 GB 的檔案,讓調用負載非常精簡,但模型仍需要處理數量可能較爲龐大的詞元。如果您使用同步 Amazon Bedrock 呼叫,例如 Invoke 或 Converse,請確定您的 SDK 已設定適當的逾時。

無論如何,當需要考量延遲時,Amazon S3 URI 為首選方式。如上一節所述,分割影片是另一個策略。預先將高解析度和高影格率的影片進行降質處理,也可以節省頻寬和服務大小的處理,進而降低延遲。