Amazon Nova 的多模態支援

本文件適用於 Amazon Nova 第 1 版。如需 Amazon Nova 2 多模態文件，請造訪多模態理解。

Amazon Nova 理解模型是多模態理解模型，這表示它們支援多模態輸入，例如影像、影片和文件，以根據提供的內容推斷並回答問題。Amazon Nova 模型配備新穎的視覺功能，讓模型能夠理解並分析影像、文件和影片，從而實現多模態理解使用案例。

下節概述在 Amazon Nova 中處理影像、文件和影片的指導方針。這些包括採用的預先處理策略、程式碼範例，以及要考慮的相關限制。

依模態支援的內容類型

以下資訊詳細說明媒體檔案支援的檔案格式和接受的輸入方法。

媒體檔案類型	支援的檔案格式	輸入方法	解析策略
影像	PNG、JPG、JPEG、GIF、WebP	Base64 Amazon S3 URL	影像視覺理解
文字文件 (僅限 Converse API)	CSV、XLS、XLSX、HTML、TXT、MD、DOC	位元組 Amazon S3 URL	僅限來自文件的文字理解。
媒體文件 (僅限 Converse API)	PDF、DOCX	位元組 Amazon S3 URL	具有交錯影像理解的文字
影片	MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP	Base64 Amazon S3 URL	影片視覺理解

最多可以包含來自電腦的五個檔案，或來自 Amazon S3 的 1000 個檔案。從 Amazon S3 上傳時，每個檔案不得超過 1 GB。從電腦上傳時，上傳檔案的總大小不得超過 25 MB；從 Amazon S3 上傳時，總大小不得超過 2 GB。

由於 25 MB 是整體負載限制，因此請確定計入 base64 額外負荷。工作時，請記住，程式庫和架構會維護記憶體，而傳遞的媒體內容可以快速累積。使用影片時，指定 s3Location 應該可以減輕許多儲存問題。

無論輸入方法為何，大型影片和文件都需要一些時間進行處理。如果在等待回應時 boto3 SDK 逾時 Amazon Bedrock，請確保您已設定適當的 read_timeout 值，並將 boto3 升級到至少 1.38 版。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

回應結構重點

影像理解