本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon Nova 的多模態支援
注意
本文件適用於 Amazon Nova 第 1 版。如需 Amazon Nova 2 多模態文件,請造訪多模態理解。
Amazon Nova 理解模型是多模態理解模型,這表示它們支援多模態輸入,例如影像、影片和文件,以根據提供的內容推斷並回答問題。Amazon Nova 模型配備新穎的視覺功能,讓模型能夠理解並分析影像、文件和影片,從而實現多模態理解使用案例。
下節概述在 Amazon Nova 中處理影像、文件和影片的指導方針。這些包括採用的預先處理策略、程式碼範例,以及要考慮的相關限制。
依模態支援的內容類型
以下資訊詳細說明媒體檔案支援的檔案格式和接受的輸入方法。
媒體檔案類型 |
支援的檔案格式 |
輸入方法 |
解析策略 |
|---|---|---|---|
影像 |
PNG、JPG、JPEG、GIF、WebP |
Base64 Amazon S3 URL |
影像視覺理解 |
文字文件 (僅限 Converse API) |
CSV、XLS、XLSX、HTML、TXT、MD、DOC |
位元組 Amazon S3 URL |
僅限來自文件的文字理解。 |
媒體文件 (僅限 Converse API) |
PDF、DOCX |
位元組 Amazon S3 URL |
具有交錯影像理解的文字 |
影片 |
MP4、MOV、MKV、WebM、FLV、MPEG、MPG、WMV、3GP |
Base64 Amazon S3 URL |
影片視覺理解 |
注意
最多可以包含來自電腦的五個檔案,或來自 Amazon S3 的 1000 個檔案。從 Amazon S3 上傳時,每個檔案不得超過 1 GB。從電腦上傳時,上傳檔案的總大小不得超過 25 MB;從 Amazon S3 上傳時,總大小不得超過 2 GB。
由於 25 MB 是整體負載限制,因此請確定計入 base64 額外負荷。工作時,請記住,程式庫和架構會維護記憶體,而傳遞的媒體內容可以快速累積。使用影片時,指定 s3Location 應該可以減輕許多儲存問題。
注意
無論輸入方法為何,大型影片和文件都需要一些時間進行處理。如果在等待回應時 boto3 SDK 逾時 Amazon Bedrock,請確保您已設定適當的 read_timeout