Resumen de la imagen Taxonomía de IAB Detección de logotipos Detección del texto de la imagen Moderación de contenido Salida estándar de imagen

Imágenes

La característica de Automatización de Datos de Amazon Bedrock (BDA) ofrece un conjunto completo de resultados estándar para el procesamiento de imágenes a fin de generar información a partir de sus imágenes. Puede utilizar esta información para permitir una amplia variedad de aplicaciones y casos de uso, como la detección de contenido, la colocación de anuncios contextuales y la seguridad de la marca. Esta es una descripción general de cada tipo de operación disponible como parte de las salidas estándar para las imágenes:

Resumen de la imagen

El resumen de la imagen genera un título descriptivo para una imagen. Esta característica está habilitada de forma predeterminada en la configuración de salida estándar.

Taxonomía de IAB

La clasificación de Interactive Advertising Bureau (IAB) aplica una taxonomía publicitaria estándar para clasificar el contenido de las imágenes. En la versión preliminar, BDA admitirá 24 categorías de nivel superior (L1) y 85 categorías de segundo nivel (L2). Para descargar la lista de categorías de IAB compatibles con BDA, haga clic aquí.

Detección de logotipos

Esta característica identifica los logotipos de una imagen y proporciona información sobre el cuadro delimitador, que indica las coordenadas de cada logotipo detectado en la imagen y las puntuaciones de confianza. Esta característica no está habilitada de forma predeterminada.

Detección del texto de la imagen

Esta característica detecta y extrae el texto que aparece visualmente en una imagen y proporciona información sobre el cuadro delimitador, que indica las coordenadas de cada elemento de texto detectado en la imagen y las puntuaciones de confianza. Esta característica está habilitada de forma predeterminada en la configuración de salida estándar.

Moderación de contenido

La moderación de contenido detecta contenido inapropiado, no deseado u ofensivo en una imagen. En la versión preliminar, BDA admitirá siete categorías de moderación: desnudez explícita y no explícita de partes íntimas y besos, trajes de baño o ropa interior, violencia, drogas y tabaco, alcohol y señales de odio. El texto explícito de las imágenes no se marca.

Los cuadros delimitadores y las puntuaciones de confianza asociadas se pueden activar o desactivar para las características pertinentes, como la detección de texto, a fin de proporcionar las coordenadas de ubicación en la imagen. De forma predeterminada, el resumen de la imagen y la detección del texto de la imagen están habilitados.

Salida estándar de imagen

A continuación se muestra un ejemplo de una salida estándar para una imagen procesada a través de BDA. Cada sección se ha abreviado y separado con una explicación.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La primera parte de una respuesta son los metadatos de una imagen. Proporciona el nombre del archivo, el tipo de codificación, la ubicación del bucket de s3 y más información sobre el contenido.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Al principio de la respuesta está el resumen generativo de la imagen.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

A continuación, vemos las categorías de IAB adjuntas a una respuesta. Representan diferentes tipos de clasificaciones de publicidad, utilizando la taxonomía estándar de IAB. Cada una de ellas tiene una puntuación de confianza, un taxonomy_level y un parent_name para la categoría general de alto nivel.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La moderación de contenido contiene información sobre el posible contenido explícito de una imagen. Cada una de ellas tiene una puntuación de confianza y una categoría, que se corresponden con las categorías de moderación de contenido analizadas anteriormente en esta sección.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

En esta sección se desglosan las palabras detectadas en una imagen, incluidas la confianza y la ubicación en pantalla dentro de la imagen. También marca la línea en la que se encuentra la palabra, utilizando line_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Aquí, las palabras se detectan en sus líneas agrupadas, con una puntuación de confianza y un cuadro delimitador.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Por último, tenemos las estadísticas. Estas desglosan todo el contenido de una imagen, incluido el objeto

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documentos de

Videos