本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 視覺理解提示最佳實務
<a name="prompting-video-understanding"></a>

**注意**  
本文件適用於 Amazon Nova 第 1 版。如需有關如何在 Amazon Nova 2 中提示多模態理解的資訊，請參閱[提示多模態輸入](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html)。

Amazon Nova 模型系列配備新穎的視覺功能，讓模型能夠理解和分析影像和影片，從而解鎖令人興奮的多模態互動機會。下列各節概述在 Amazon Nova 中處理影像和影片的指導方針。這包括最佳實務、程式碼範例和需要考慮的相關限制。

您提供的影像或影片品質越高，模型越有可能準確了解媒體檔案中的資訊。確保影像或影片清晰且無過度模糊或像素化，以確保結果更準確。如果影像或影片影格包含重要的文字資訊，請確認文字清晰易讀且不會太小。避免只為了放大文字而裁剪關鍵視覺上下文。

Amazon Nova 模型可讓您在負載中包含單一影片，該影片可以 base64 格式或透過 Amazon S3 URI 提供。當使用 base64 方法時，整體負載大小必須小於 25 MB。不過，您可以指定 Amazon S3 URI 用於影像、影片和文件理解。使用 Amazon S3 可讓您利用模型處理更大型檔案和多個媒體檔案，而不受整體負載大小限制的約束。Amazon Nova 可以分析輸入影片，並根據提供的指示回答問題、分類影片和總結影片內的資訊。

Amazon Nova 模型可讓您在負載中包含多個影像。總負載大小不能超過 25 MB。Amazon Nova 模型可以分析傳遞的影像，並根據提供的指示回答問題、分類影像和總結影像。


**影像資訊**  

| 媒體檔案類型 | 支援的檔案格式 | 輸入方法 | 
| --- |--- |--- |
| 影像 | PNG、JPG、JPEG、GIF、WebP | Base64 和 Amazon S3 URI | 


**影片資訊**  

| 格式 | MIME 類型 | 影片編碼 | 
| --- |--- |--- |
| MKV | 影片/x-matroska | H.264 | 
| MOV | 影片/quicktime | H.264<br />H.265<br />ProRES | 
| MP4 | 影片/mp4 | DIVX/XVID<br />H.264<br />H.265<br />J2K (JPEG2000)<br />MPEG-2<br />MPEG-4 第 2 部分<br />VP9 | 
| WEBM | 影片/webm | VP8<br />VP9 | 
| FLV | 影片/x-flv | FLV1 | 
| MPEG | 影片/mpeg | MPEG-1 | 
| MPG | 影片/mpg | MPEG-1 | 
| WMV | 影片/wmv | MSMPEG4v3 (MP43) | 
| 3GPP | 影片/3gpp | H.264 | 

無論影片是以 base64 格式傳遞 (只要符合大小限制) 還是透過 Amazon S3 位置傳遞，影片輸入詞元計數都沒有差異。

請注意，對於 3GP 檔案格式，在 API 請求中傳遞的「格式」欄位應采用「three\_gp」格式。

當使用 Amazon S3 時，請確定已將「內容類型」中繼資料設定為影片的正確 MIME 類型

**Topics**
+ [長影片和動態內容較多的影片](#prompting-video-motion)
+ [延遲](#prompting-video-latency)
+ [視覺理解提示技巧](prompting-vision-prompting.md)

## 長影片和動態內容較多的影片
<a name="prompting-video-motion"></a>

此模型透過以基礎速率每秒 1 個影格 (FPS) 取樣影片影格來理解影片。在影片中擷取詳細資訊與消耗所使用的輸入詞元之間取得平衡，這會影響成本、延遲和影片長度上限。雖然每秒取樣一個事件應該足以處理一般使用案例，但諸如運動影片等高動態影片的某些使用案例可能無法正常運作。

為了處理較長的影片，對於長度超過 16 分鐘的影片，Amazon Nova Lite 和 Amazon Nova Pro 會將取樣率降低至固定的 960 影格，這些影格會均勻分布在影片的整個長度中。這表示當影片長度超過 16 分鐘時，FPS 越低，擷取的詳細資訊也越少。這可實現諸如對較長影片進行摘要等使用案例，但對於動態內容較多且具有重要詳細資訊的影片，則會讓問題加劇。對於 Amazon Nova Premier，1 FPS 取樣率的套用上限為 3,200 個影格。

在許多情況下，可以透過使用預先處理步驟和多個呼叫，在較長的影片上取得 1 FPS 的取樣。影片可以分割成較小的區段，然後使用模型的多模型功能來分析每個區段。系統會彙總回應，並透過使用文字轉文字的最終步驟產生最終答案。請注意，以這種方式分割影片時，可能會遺失上下文。這類似於 RAG 分塊使用案例中的權衡，並且許多相同的風險降低技術同樣適用，例如滑動視窗。

請注意，由於分析是平行進行的，分段影片也可能減少延遲，但可能會產生顯著更多的輸入詞元，從而影響成本。

## 延遲
<a name="prompting-video-latency"></a>

影片的大小可能很大。雖然我們提供方法，透過將檔案上傳至 Amazon S3 來處理高達 1 GB 的檔案，讓調用負載非常精簡，但模型仍需要處理數量可能較爲龐大的詞元。如果您使用同步 Amazon Bedrock 呼叫，例如 Invoke 或 Converse，請確定您的 SDK 已設定適當的逾時。

無論如何，當需要考量延遲時，Amazon S3 URI 為首選方式。如上一節所述，分割影片是另一個策略。預先將高解析度和高影格率的影片進行降質處理，也可以節省頻寬和服務大小的處理，進而降低延遲。