Riepilogo dell’immagine Tassonomia IAB Rilevamento del logo Rilevamento di testo nelle immagini Moderazione dei contenuti Output standard dell’immagine

Immagini

La funzionalità Amazon Bedrock Data Automation (BDA) offre una serie completa di output standard per l’elaborazione delle immagini, al fine di generare approfondimenti dalle immagini stesse. Puoi utilizzare questi approfondimenti per abilitare un’ampia gamma di applicazioni e casi d’uso, come l’individuazione di contenuti, il posizionamento contestuale degli annunci pubblicitari e la sicurezza del marchio. Di seguito è riportata una panoramica di ciascun tipo di operazione disponibile come parte degli output standard per le immagini:

Riepilogo dell’immagine

Il riepilogo dell’immagine genera una didascalia descrittiva per un’immagine. Questa funzionalità è abilitata per impostazione predefinita nella configurazione di output standard.

Tassonomia IAB

La classificazione IAB (Interactive Advertising Bureau) applica una tassonomia pubblicitaria standard per classificare i contenuti delle immagini. Per l’anteprima, BDA supporta 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l’elenco delle categorie IAB supportate da BDA, fai clic qui.

Rilevamento del logo

Questa funzionalità identifica i loghi presenti in un’immagine e fornisce informazioni sul riquadro di delimitazione, indicando le coordinate di ciascun logo rilevato all’interno dell’immagine e i punteggi di affidabilità. Questa funzionalità non è abilitata per impostazione predefinita.

Rilevamento di testo nelle immagini

Questa funzionalità rileva ed estrae il testo visibile in un’immagine e fornisce informazioni sul riquadro di delimitazione, indicando le coordinate di ciascun elemento di testo rilevato all’interno dell’immagine e i punteggi di affidabilità. Questa funzionalità è abilitata per impostazione predefinita nella configurazione di output standard.

Moderazione dei contenuti

La moderazione dei contenuti rileva contenuti inappropriati, indesiderati oppure offensivi in un’immagine. Per l’anteprima, BDA supporterà 7 categorie di moderazione: Nudità esplicita e non esplicita delle parti intime e baci, Costumi da bagno o biancheria intima, Violenza, Droghe e tabacco, Alcol, Simboli di odio. Il testo esplicito nelle immagini non viene contrassegnato.

I riquadri di delimitazione e i relativi punteggi di affidabilità possono essere abilitati o disabilitati per funzionalità pertinenti come il rilevamento del testo, per fornire coordinate di posizione nell’immagine. Il riepilogo dell’immagine e il rilevamento del testo dell’immagine sono abilitati per impostazione predefinita.

Output standard dell’immagine

Di seguito è riportato un esempio di output standard per un’immagine elaborata tramite BDA: Ogni sezione è stata abbreviata e separata da una spiegazione.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

La prima parte di una risposta è il metadato di un’immagine. Fornisce il nome del file, il tipo di codifica, la posizione del bucket s3 e ulteriori informazioni sul contenuto.



"image": {
    "summary": "Lively party scene with decorations and supplies",

All’inizio della risposta c’è il riepilogo generativo dell’immagine.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Di seguito, sono visibili le categorie IAB collegate a una risposta. Queste rappresentano diversi tipi di classificazioni pubblicitarie, utilizzando la tassonomia standard IAB. Ognuna ha un punteggio di affidabilità, taxonomy_level e parent_name per la categoria generale di alto livello.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

La moderazione dei contenuti contiene informazioni sui possibili contenuti espliciti presenti in un’immagine. Ciascuno di essi ha un punteggio di affidabilità e una categoria, in linea con le categorie di moderazione dei contenuti discusse in precedenza in questa sezione.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

In questa sezione viene analizzata ogni parola rilevata all’interno di un’immagine, includendo il punteggio di affidabilità e la posizione sullo schermo all’interno dell’immagine. Indica inoltre in quale riga si trova la parola, utilizzando line_id.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Qui, le parole vengono rilevate nelle rispettive righe collettive, con punteggio di affidabilità e riquadro di delimitazione.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Infine, ci sono le statistiche. Queste suddividono tutti i contenuti all’interno di un’immagine, compreso l’oggetto

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Documenti

Video