

# 图像理解
<a name="modalities-image"></a>

**注意**  
本文档适用于 Amazon Nova 版本 1。如需 Amazon Nova 2 图片理解指南，请访问[图片理解](https://docs.aws.amazon.com/nova/latest/nova2-userguide/using-multimodal-models.html#image-understanding)。

Amazon Nova 模型允许您在有效载荷中包含多个图像，总有效载荷限制为 25 MB。但是，您可以指定包含图像的 Amazon S3 URI 以便理解图像。这种方法允许您利用模型来获取更大的图像和更多图像，而不受 25 MB 有效载荷限制约束。Amazon Nova 模型可以分析传递的图像并根据您提供的指令回答问题、对图像进行分类以及汇总图像。

## 图像大小信息
<a name="modalities-image-resolution"></a>

为了提供尽可能好的结果，Amazon Nova 会根据图像的宽高比和原始分辨率自动重新缩放，以调整输入图像的大小。对于每张图像，Amazon Nova 首先确定最接近 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、2:3、2:4 及其转置的宽高比。然后重新缩放图像，使图像的至少一边大于 896 px 或原始图像较短边的长度，同时保持最接近的宽高比。最大分辨率为 8000 x 8000 像素

## 边界框检测
<a name="modalities-image-bounding"></a>

Amazon Nova Lite 和 Amazon Nova Pro 模型经过训练，可以精确检测图像中的边界框。如果目标是获取相关特定对象的坐标，此功能可能很有价值。Amazon Nova 模型的边界框检测功能使其成为图像接地任务的理想选择，从而可以增强对屏幕截图的理解。Amazon Nova 模型以 [0, 1000) 的比例输出边界框，在获得这些坐标后，作为后处理步骤，可以根据图像尺寸重新调整它们的大小。

## 图像到词元的转换
<a name="modalities-image-tokens"></a>

如前所述，将重新调整图像大小以最大限度地提取信息，同时仍保持宽高比。以下是示例图像尺寸和近似词元计算的一些示例。


| image\$1resolution（高 x 宽或宽 x 高） | 900 x 450 | 900 x 900 | 1400 x 900 | 1.8K x 900 | 1.3K x 1.3K | 
| --- |--- |--- |--- |--- |--- |
| 估计的词元数量 | \$1800 | \$11300 | \$11800 | \$12400 | \$12600 | 

因此，举个例子，假设示例图像的大小为 800 x 400，您需要估计此图像的词元数量。根据尺寸，为了保持 1:2 的宽高比，最接近的分辨率为 900 x 450。因此，此图像的近似词元数量约为 800 个词元。