Amazon Nova 的多模式支援 - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Nova 的多模式支援

Amazon Nova Understanding Models 是多模式理解模型,這表示它們支援多模式輸入,例如影像、影片和文件,可根據提供的內容推斷和回答問題。Amazon Nova 模型配備新穎的視覺功能,讓模型能夠理解和分析影像、文件和影片,從而實現多模式理解使用案例。

下節概述在 Amazon Nova 中使用映像、文件和影片的指導方針。這些包括採用的預先處理策略、程式碼範例,以及要考慮的相關限制。

依模態支援的內容類型

以下資訊詳細說明媒體檔案支援的檔案格式和接受的輸入方法。

媒體檔案類型

支援的檔案格式

輸入方法

剖析策略

映像

PNG、JPG、JPEG、GIF、WebP

Base64

Amazon S3 URL

Image Vision 了解

文字文件

(僅限內容 API)

CSV、XLS、XLSX、HTML、TXT、MD、DOC

位元組

Amazon S3 URL

僅文字了解文件。

媒體文件

(僅限內容 API)

PDF、DOCX

位元組

Amazon S3 URL

具有交錯影像理解的文字

影片

MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP

Base64

Amazon S3 URL

影片視覺理解

注意

您最多可以包含來自電腦的 5 個檔案,或來自 Amazon S3 的 1000 個檔案。從 Amazon S3 上傳時,每個檔案不得超過 1 GB。從您的電腦上傳時,上傳檔案的總大小不得超過 25 MB,從 Amazon S3 上傳時,不得超過 2 GB。

由於 25 MB 是整體承載限制,因此請確定您計入 base64 額外負荷。工作時,請記住,程式庫和架構會維護記憶體,而傳遞的媒體內容可以快速累積。使用影片時,指定 s3Location應該可以減輕許多儲存問題。

注意

無論輸入方法為何,大型影片和文件都需要一些時間來處理。如果在等待回應時 boto3 SDK 逾時 Amazon Bedrock,請確保您已設定適當的 read_timeout 值,並將 boto3 升級到至少 1.38 版。