本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
影像理解
Amazon Nova 模型可讓您在承載中包含多個映像,總承載限制為 25 MB。不過,您可以指定包含映像的 Amazon S3 URI,以便了解映像。此方法可讓您利用模型處理較大的映像和更多映像,而不受 25 MB 承載限制的限制。Amazon Nova 模型可以分析傳遞的映像,並根據您提供的指示回答問題、分類映像和摘要映像。
影像大小資訊
為了提供最佳結果,Amazon Nova 會根據輸入影像的長寬比和原始解析度,自動重新縮放輸入影像。對於每個影像,Amazon Nova 會先從 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9 2:3、2:4 及其轉置中識別最接近的長寬比。然後,影像會重新調整規模,讓影像的至少一端大於 896px,或原始影像較短端的長度,同時維持最接近的長寬比。解析度上限為 8,000x8,000 像素
邊界框偵測
Amazon Nova Lite 和 Amazon Nova Pro 模型經過訓練,可精確偵測影像中的週框方塊。當目標是取得感興趣的特定物件的座標時,此功能可能很有價值。Amazon Nova 模型的週框方塊偵測功能使其成為影像接地任務的適當候選者,從而增強對螢幕擷取畫面的了解。Amazon Nova 模型會以 【0, 1000) 的規模輸出週框方塊,並在取得這些座標之後,可以根據影像維度調整大小,做為後續處理步驟。
權杖轉換的影像
如前所述,影像會調整大小以最大化資訊擷取,同時仍維持長寬比。以下是範例影像維度和近似字符計算的一些範例。
image_resolution (HxW 或 WxH) |
900 x 450 |
900 x 900 |
1400 x 900 |
1.8K x 900 |
1.3Kx1.3K |
---|---|---|---|---|---|
預估字符計數 |
~800 |
~1300 |
~1800 |
~2400 |
~2600 |
例如,請考慮大小為 800x400 的範例映像,而且您想要預估此映像的字符計數。根據維度,若要維持 1:2 的長寬比,最接近的解析度為 900x450。因此,此映像的大致字符計數約為 800 個字符。