图像理解

注意

本文档适用于 Amazon Nova 版本 1。如需 Amazon Nova 2 图片理解指南，请访问图片理解。

Amazon Nova 模型允许您在有效载荷中包含多个图像，总有效载荷限制为 25 MB。但是，您可以指定包含图像的 Amazon S3 URI 以便理解图像。这种方法允许您利用模型来获取更大的图像和更多图像，而不受 25 MB 有效载荷限制约束。Amazon Nova 模型可以分析传递的图像并根据您提供的指令回答问题、对图像进行分类以及汇总图像。

图像大小信息

为了提供尽可能好的结果，Amazon Nova 会根据图像的宽高比和原始分辨率自动重新缩放，以调整输入图像的大小。对于每张图像，Amazon Nova 首先确定最接近 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、2:3、2:4 及其转置的宽高比。然后重新缩放图像，使图像的至少一边大于 896 px 或原始图像较短边的长度，同时保持最接近的宽高比。最大分辨率为 8000 x 8000 像素

边界框检测

Amazon Nova Lite 和 Amazon Nova Pro 模型经过训练，可以精确检测图像中的边界框。如果目标是获取相关特定对象的坐标，此功能可能很有价值。Amazon Nova 模型的边界框检测功能使其成为图像接地任务的理想选择，从而可以增强对屏幕截图的理解。Amazon Nova 模型以 [0, 1000) 的比例输出边界框，在获得这些坐标后，作为后处理步骤，可以根据图像尺寸重新调整它们的大小。

图像到词元的转换

如前所述，将重新调整图像大小以最大限度地提取信息，同时仍保持宽高比。以下是示例图像尺寸和近似词元计算的一些示例。

image_resolution（高 x 宽或宽 x 高）	900 x 450	900 x 900	1400 x 900	1.8K x 900	1.3K x 1.3K
估计的词元数量	~800	~1300	~1800	~2400	~2600

因此，举个例子，假设示例图像的大小为 800 x 400，您需要估计此图像的词元数量。根据尺寸，为了保持 1:2 的宽高比，最接近的分辨率为 900 x 450。因此，此图像的近似词元数量约为 800 个词元。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

多模态支持

图像理解限制