图像

Amazon Bedrock 数据自动化（BDA）功能提供了一套全面的标准输出用于图像处理，以便从图像中生成见解。您可以利用这些见解来实现各种应用和使用案例，例如内容发现、情境广告投放和品牌安全。以下针对图像的标准输出，概述了可用的各种操作类型：

图像摘要

图像摘要为图像生成描述性标题。此功能在标准输出配置中默认启用。

IAB 分类法

互动广告局（IAB）分类采用标准的广告分类法对图像内容进行分类。对于预览版，BDA 支持 24 个顶级（L1）类别和 85 个二级（L2）类别。要下载 BDA 支持的 IAB 类别列表，请单击此处。

徽标检测

此功能可识别图像中的徽标并提供边界框信息，指示在图像中检测到的每个徽标的坐标以及置信度分数。该功能默认情况下不启用。

图像文本检测

此功能检测和提取直观地显示在图像中的文本并提供边界框信息，指示在图像中检测到的每个文本元素的坐标以及置信度分数。此功能在标准输出配置中默认启用。

内容审核

内容审核可检测图像中的不当、不需要或冒犯性内容。在预览版中，BDA 支持 7 个审核类别：露骨内容、私密部位的非露骨裸露和接吻、泳装或内衣、暴力、毒品和烟草、酒精、仇恨符号。图像中的露骨文字不会被标记。

对于文本检测（用于提供在图像中的位置坐标）等相关的功能，可以启用或禁用边界框和相关的置信度分数。默认情况下，图像摘要和图像文本检测功能已启用。

图像标准输出

以下是通过 BDA 处理的图像的标准输出示例。每个部分的内容均有缩减并分隔，单独附有说明。


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

响应的第一部分是图像的元数据。其中提供了文件名、编码类型、S3 存储桶位置以及有关内容的更多信息。



"image": {
    "summary": "Lively party scene with decorations and supplies",

响应的开头是图像的生成式摘要。



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

接下来，我们将看到响应中附加的 IAB 类别。这些类别使用标准的 IAB 分类法，代表不同的广告分类类型。对于一般的高级类别，每个分类都有置信度分数、taxonomy_level 和 parent_name。



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

内容审核包含有关图像中可能存在的露骨内容的信息。这些信息都有一个置信度分数和类别，与本节前面讨论的内容审核类别一致。



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

此部分细分了在图像中检测到的每个单词，包括置信度和图像中的屏幕位置。它还使用 line_id 标记单词在哪一行。



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

在这里，单词按照共同行进行检测，带有置信度分数和边界框。



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

最后还提供了统计数据。这些数据细分图像中的所有内容，包括物体

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

文档

视频