图像 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

图像

Amazon Bedrock 数据自动化(BDA)功能提供了一套全面的标准输出用于图像处理,以便从图像中生成见解。您可以利用这些见解来实现各种应用和使用案例,例如内容发现、情境广告投放和品牌安全。以下针对图像的标准输出,概述了可用的各种操作类型:

图像摘要

图像摘要为图像生成描述性标题。此功能在标准输出配置中默认启用。

IAB 分类法

互动广告局(IAB)分类采用标准的广告分类法对图像内容进行分类。对于预览版,BDA 支持 24 个顶级(L1)类别和 85 个二级(L2)类别。要下载 BDA 支持的 IAB 类别列表,请单击此处

徽标检测

此功能可识别图像中的徽标并提供边界框信息,指示在图像中检测到的每个徽标的坐标以及置信度分数。该功能默认情况下不启用。

图像文本检测

此功能检测和提取直观地显示在图像中的文本并提供边界框信息,指示在图像中检测到的每个文本元素的坐标以及置信度分数。此功能在标准输出配置中默认启用。

内容审核

内容审核可检测图像中的不当、不需要或冒犯性内容。在预览版中,BDA 支持 7 个审核类别:露骨内容、私密部位的非露骨裸露和接吻、泳装或内衣、暴力、毒品和烟草、酒精、仇恨符号。图像中的露骨文字不会被标记。

对于文本检测(用于提供在图像中的位置坐标)等相关的功能,可以启用或禁用边界框和相关的置信度分数。默认情况下,图像摘要和图像文本检测功能已启用。

图像标准输出

以下是通过 BDA 处理的图像的标准输出示例。每个部分的内容均有缩减并分隔,单独附有说明。

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

响应的第一部分是图像的元数据。其中提供了文件名、编码类型、S3 存储桶位置以及有关内容的更多信息。

"image": { "summary": "Lively party scene with decorations and supplies",

响应的开头是图像的生成式摘要。

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

接下来,我们将看到响应中附加的 IAB 类别。这些类别使用标准的 IAB 分类法,代表不同的广告分类类型。对于一般的高级类别,每个分类都有置信度分数、taxonomy_level 和 parent_name。

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

内容审核包含有关图像中可能存在的露骨内容的信息。这些信息都有一个置信度分数和类别,与本节前面讨论的内容审核类别一致。

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

此部分细分了在图像中检测到的每个单词,包括置信度和图像中的屏幕位置。它还使用 line_id 标记单词在哪一行。

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

在这里,单词按照共同行进行检测,带有置信度分数和边界框。

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

最后还提供了统计数据。这些数据细分图像中的所有内容,包括物体