图像理解
Amazon Nova 模型允许您在有效载荷中包含多个图像,总有效载荷限制为 25 MB。但是,您可以指定包含图像的 Amazon S3 URI 以便理解图像。这种方法允许您利用模型来获取更大的图像和更多图像,而不受 25 MB 有效载荷限制约束。Amazon Nova 模型可以分析传递的图像并根据您提供的指令回答问题、对图像进行分类以及汇总图像。
图像大小信息
为了提供尽可能好的结果,Amazon Nova 会根据图像的宽高比和原始分辨率自动重新缩放,以调整输入图像的大小。对于每张图像,Amazon Nova 首先确定最接近 1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、2:3、2:4 及其转置的宽高比。然后重新缩放图像,使图像的至少一边大于 896 px 或原始图像较短边的长度,同时保持最接近的宽高比。最大分辨率为 8000 x 8000 像素
边界框检测
Amazon Nova Lite 和 Amazon Nova Pro 模型经过训练,可以精确检测图像中的边界框。如果目标是获取相关特定对象的坐标,此功能可能很有价值。Amazon Nova 模型的边界框检测功能使其成为图像接地任务的理想选择,从而可以增强对屏幕截图的理解。Amazon Nova 模型以 [0, 1000) 的比例输出边界框,在获得这些坐标后,作为后处理步骤,可以根据图像尺寸重新调整它们的大小。
图像到词元的转换
如前所述,将重新调整图像大小以最大限度地提取信息,同时仍保持宽高比。以下是示例图像尺寸和近似词元计算的一些示例。
image_resolution(高 x 宽或宽 x 高) |
900 x 450 |
900 x 900 |
1400 x 900 |
1.8K x 900 |
1.3K x 1.3K |
---|---|---|---|---|---|
估计的词元数量 |
~800 |
~1300 |
~1800 |
~2400 |
~2600 |
因此,举个例子,假设示例图像的大小为 800 x 400,您需要估计此图像的词元数量。根据尺寸,为了保持 1:2 的宽高比,最接近的分辨率为 900 x 450。因此,此图像的近似词元数量约为 800 个词元。