图像理解 - Amazon Nova

图像理解

Amazon Nova 模型允许您在有效载荷中包含多个图像,总有效载荷限制为 25 MB。但是,您可以指定包含图像的 Amazon S3 URI 以便理解图像。这种方法允许您利用模型来获取更大的图像和更多图像,而不受 25 MB 有效载荷限制约束。Amazon Nova 模型可以分析传递的图像并根据您提供的指令回答问题、对图像进行分类以及汇总图像。

图像大小信息

为了提供尽可能好的结果,Amazon Nova 会根据图像的宽高比和原始分辨率自动重新缩放,以调整输入图像的大小。对于每张图像,Amazon Nova 首先确定最接近 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、2:3、2:4 及其转置的宽高比。然后重新缩放图像,使图像的至少一边大于 896 px 或原始图像较短边的长度,同时保持最接近的宽高比。最大分辨率为 8000 x 8000 像素

边界框检测

Amazon Nova Lite 和 Amazon Nova Pro 模型经过训练,可以精确检测图像中的边界框。如果目标是获取相关特定对象的坐标,此功能可能很有价值。Amazon Nova 模型的边界框检测功能使其成为图像接地任务的理想选择,从而可以增强对屏幕截图的理解。Amazon Nova 模型以 [0, 1000) 的比例输出边界框,在获得这些坐标后,作为后处理步骤,可以根据图像尺寸重新调整它们的大小。

图像到词元的转换

如前所述,将重新调整图像大小以最大限度地提取信息,同时仍保持宽高比。以下是示例图像尺寸和近似词元计算的一些示例。

image_resolution(高 x 宽或宽 x 高)

900 x 450

900 x 900

1400 x 900

1.8K x 900

1.3K x 1.3K

估计的词元数量

~800

~1300

~1800

~2400

~2600

因此,举个例子,假设示例图像的大小为 800 x 400,您需要估计此图像的词元数量。根据尺寸,为了保持 1:2 的宽高比,最接近的分辨率为 900 x 450。因此,此图像的近似词元数量约为 800 个词元。