Récapitulatif de l’image Taxonomie de l’IAB Détection de logo Détection du texte de l’image Modération de contenu Sortie standard d’image

Images

La fonctionnalité d’automatisation des données Amazon Bedrock (BDA) propose un ensemble complet de sorties standard pour le traitement des images afin de générer des insights à partir de vos images. Ces insights vous permettent d’activer un large éventail d’applications et de cas d’utilisation, comme la découverte de contenu, le placement d’annonces contextuelles et la sécurité de la marque. Voici une vue d’ensemble de chaque type d’opération disponible dans le cadre des sorties standard pour les images :

Récapitulatif de l’image

Le récapitulatif de l’image génère une légende descriptive pour une image. Cette fonctionnalité est activée par défaut dans la configuration de sortie standard.

Taxonomie de l’IAB

La classification de l’Interactive Advertising Bureau (IAB) applique une taxonomie publicitaire standard pour classer le contenu des images. Pour la version préliminaire, BDA prend en charge 24 catégories de premier niveau (L1) et 85 catégories de deuxième niveau (L2). Pour télécharger la liste des catégories IAB prises en charge par BDA, cliquez ici.

Détection de logo

Cette fonctionnalité identifie les logos dans une image et fournit des informations de cadre de délimitation, indiquant les coordonnées de chaque logo détecté dans l’image, ainsi que les scores de confiance. Cette fonctionnalité n’est pas activée par défaut.

Détection du texte de l’image

Cette fonctionnalité détecte et extrait le texte qui s’affiche visuellement dans une image et fournit des informations de cadre de délimitation, indiquant les coordonnées de chaque élément de texte détecté dans l’image, ainsi que les scores de confiance. Cette fonctionnalité est activée par défaut dans la configuration de sortie standard.

Modération de contenu

La modération de contenu détecte le contenu inapproprié, indésirable ou offensant dans une image. Pour la version préliminaire, BDA prend en charge 7 catégories de modération : nudité explicite et non explicite des parties intimes et baisers, maillots de bain ou sous-vêtements, violence, drogues et tabac, alcool, symboles haineux. Le texte explicite des images n’est pas signalé.

Les cadres de délimitation et les scores de confiance associés peuvent être activés ou désactivés pour des fonctionnalités pertinentes telles que la détection de texte, afin de fournir des coordonnées de localisation dans l’image. Par défaut, le récapitulatif de l’image et la détection du texte de l’image sont activés.

Sortie standard d’image

Voici un exemple de sortie standard pour une image traitée au moyen de BDA : Chaque section a été raccourcie et séparée par une explication.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La première partie d’une réponse se compose des métadonnées d’une image. Elle vous donne le nom du fichier, le type d’encodage, l’emplacement du compartiment s3 et des informations supplémentaires sur le contenu.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Au début de la réponse se trouve le récapitulatif génératif de l’image.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Ensuite, nous voyons les catégories IAB attachées à une réponse. Elles représentent différents types de classifications publicitaires, selon la taxonomie standard de l’IAB. Chacune possède une valeur score de confiance, taxonomy_level et parent_name pour la catégorie générale de haut niveau.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La modération de contenu contient des informations sur l’éventuel contenu explicite d’une image. Chacune d’entre elles possède un score de confiance et une catégorie, correspondant aux catégories de modération de contenu abordées plus haut dans la section.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

Cette section détaille chaque mot détecté dans une image, y compris la confiance et l’emplacement à l’écran dans l’image. Elle indique également la ligne dans laquelle se trouve le mot, en utilisant line_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Ici, les mots sont détectés dans leurs lignes collectives, avec un score de confiance et un cadre de délimitation.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Enfin, nous avons des statistiques. Elles décomposent tout le contenu d’une image, y compris l’objet.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Documents

Vidéos