視覺理解提示最佳實務 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

視覺理解提示最佳實務

Amazon Nova 模型系列配備新穎的視覺功能,讓模型能夠理解和分析影像和影片,從而釋放令人興奮的多模型互動機會。下列各節概述在 Amazon Nova 中使用映像和影片的指導方針。這包括最佳實務、程式碼範例和要考慮的相關限制。

您提供的更高品質的影像或影片,模型越有可能準確了解媒體檔案中的資訊。確保影像或影片清晰且無過度模糊或像素化,以確保結果更準確。如果影像或影片影格包含重要的文字資訊,請確認文字清晰且不會太小。避免只為了放大文字而裁剪關鍵視覺效果內容。

Amazon Nova 模型可讓您在承載中包含單一影片,該影片可以 base64 格式或透過 Amazon S3 URI 提供。使用 base64 方法時,整體承載大小必須小於 25 MB。不過,您可以指定 Amazon S3 URI 以進行映像、影片和文件理解。使用 Amazon S3 可讓您利用模型處理大型檔案和多個媒體檔案,而不受整體承載大小限制的限制。Amazon Nova 可以分析輸入影片並回答問題、分類影片,並根據提供的指示摘要影片中的資訊。

Amazon Nova 模型可讓您在承載中包含多個映像。總承載大小不得超過 25 MB。Amazon Nova 模型可以分析傳遞的影像並回答問題、分類影像,並根據提供的指示摘要影像。

影像資訊

媒體檔案類型

支援的檔案格式

輸入方法

映像

PNG、JPG、JPEG、GIF、WebP

Base64 和 Amazon S3 URI

影片資訊

格式

MIME 類型

影片編碼

MKV

影片/x-matroska

H.264

MOV

影片/快速時間

H.264

H.265

ProRES

MP4

影片/mp4

DIVX/XVID

H.264

H.265

J2K (JPEG2000)

MPEG-2

MPEG-4 第 2 部分

VP9

WEBM

影片/網路

VP8

VP9

FLV

影片/x-flv

FLV1

MPEG

影片/mpeg

MPEG-1

MPG

影片/mpg

MPEG-1

WMV

影片/wmv

MSMPEG4v3 (MP43)

3GPP

影片/3gpp

H.264

無論影片是以 base64 傳遞 (只要符合大小限制) 或透過 Amazon S3 位置傳遞,影片輸入字符計數都沒有差異。

請注意,對於 3gp 檔案格式,在 API 請求中傳遞的「格式化」欄位格式應為「三_gp」。

使用 Amazon S3 時,請確定您的「內容類型」中繼資料設定為影片的正確 MIME 類型

長動作和高動作影片

模型會以每秒 1 個基本影格 (FPS) 取樣影片影格,藉此了解影片。在影片中擷取詳細資訊和使用輸入字符之間取得平衡,這會影響成本、延遲和最大影片長度。雖然每秒取樣一個事件應該足以處理一般使用案例,但運動影片等高動態影片上的某些使用案例可能無法正常運作。

為了處理較長的影片,會將影片上超過 16 分鐘的取樣率降低為固定的 960 影格,並在 Amazon Nova Lite 和 Amazon Nova Pro 的影片長度之間隔開。這表示影片超過 16 分鐘時,FPS 越低,擷取的詳細資訊就越少。這允許使用案例,例如摘要較長影片,但會加劇高動態影片的問題,其中詳細資訊很重要。對於 Amazon Nova Premier,1 個 FPS 取樣率的套用上限為 3,200 個影格。

在許多情況下,您可以使用預先處理步驟和多個呼叫,在較長的影片上取得 1 個 FPS 取樣。視訊可以分割成較小的區段,然後使用模型的多模型功能來分析每個區段。系統會彙總回應,而使用text-to-text的最終步驟會產生最終答案。請注意,以這種方式分割影片時,內容可能會遺失。這類似於 RAG 使用案例區塊化中的權衡,以及許多相同的緩解技術傳輸良好,例如滑動視窗。

請注意,由於分析是平行進行的,分段影片也可能減少延遲,但可能會產生更多輸入字符,這會影響成本。

Latency (延遲)

影片的大小可能很大。雖然我們提供方法透過將檔案上傳至 Amazon S3 來處理最多 1 GB 的檔案,讓調用承載非常精簡,但模型仍需要處理可能大量的字符。如果您使用的是同步 Amazon Bedrock 呼叫,例如調用或轉換,請確定您的 SDK 已設定適當的逾時。

無論如何,當延遲是因素時,Amazon S3 URI 是首選的方式。如上一節所述分割影片是另一個策略。預先處理高解析度和高畫面播放速率影片也可以節省頻寬,並處理服務大小,進而降低延遲。