Bildzusammenfassung IAB-Taxonomie Logo-Erkennung Texterkennung auf Bildern Inhaltsmoderation Standardausgabe für Bilder

Bilder

Das Feature Amazon Bedrock Data Automation (BDA) bietet einen umfassenden Satz von Standardausgaben für die Bildverarbeitung, um Erkenntnisse aus Ihren Bildern zu gewinnen. Sie können diese Erkenntnisse für eine Vielzahl von Anwendungen und Anwendungsfälle nutzen, z. B. für die Erkennung von Inhalten, die Platzierung kontextbezogener Anzeigen und die Markensicherheit. Im Folgenden finden Sie eine Übersicht über die einzelnen Operationstypen, die als Teil der Standardausgaben für Bilder verfügbar sind:

Bildzusammenfassung

Die Bildzusammenfassung generiert eine beschreibende Bildunterschrift. Dieses Feature ist in der Konfiguration der Standardausgabe standardmäßig aktiviert.

IAB-Taxonomie

Die Klassifikation des Interactive Advertising Bureau (IAB) wendet eine Standardtaxonomie für Werbung zur Klassifizierung von Bildinhalten an. Für die Vorschauversion unterstützt BDA 24 Kategorien der obersten Ebene (L1) und 85 Kategorien der zweiten Ebene (L2). Um die Liste der von BDA unterstützten IAB-Kategorien herunterzuladen, klicken Sie hier.

Logo-Erkennung

Dieses Feature identifiziert Logos in einem Bild und stellt Informationen zu Begrenzungsrahmen bereit, die die Koordinaten der einzelnen erkannten Logos im Bild sowie Konfidenzwerte angeben. Dieses Feature ist standardmäßig nicht aktiviert.

Texterkennung auf Bildern

Dieses Feature erkennt und extrahiert Text in einem Bild und stellt Informationen zu Begrenzungsrahmen bereit, die die Koordinaten der einzelnen erkannten Textelemente im Bild sowie Konfidenzwerte angeben. Dieses Feature ist in der Konfiguration der Standardausgabe standardmäßig aktiviert.

Inhaltsmoderation

Mit der Inhaltsmoderation werden unangemessene, unerwünschte oder anstößige Inhalte in einem Bild erkannt. Für die Vorschauversion unterstützt BDA 7 Moderationskategorien: explizit, nicht explizite Nacktheit intimer Bereiche und Küssen, Bademode oder Unterwäsche, Gewalt, Drogen und Tabak, Alkohol, Hasssymbole. Expliziter Text in Bildern wird nicht gekennzeichnet.

Begrenzungsrahmen und die zugehörigen Konfidenzwerte können für relevante Features wie die Texterkennung zur Bereitstellung von Positionskoordinaten im Bild aktiviert oder deaktiviert werden. Standardmäßig sind Bildzusammenfassung und Bildtexterkennung aktiviert.

Standardausgabe für Bilder

Im Folgenden sehen Sie ein Beispiel für eine Standardausgabe für ein Bild, das mit BDA verarbeitet wurde. Die einzelnen Abschnitte wurden gekürzt und durch Erklärungen getrennt.


{
"metadata": {
    "id": "image_123",
    "semantic_modality": "IMAGE",
    "s3_bucket": "my-s3-bucket",
    "s3_prefix": "images/",
    "image_width_pixels": 1920,
    "image_height_pixels": 1080,
    "color_depth": 24,
    "image_encoding": "JPEG"
},

Der erste Teil einer Antwort sind die Metadaten eines Bildes. Sie sehen den Dateinamen, den Kodierungstyp, den Speicherort des S3-Buckets und weitere Informationen zum Inhalt.



"image": {
    "summary": "Lively party scene with decorations and supplies",

Am Anfang der Antwort steht die generative Zusammenfassung des Bildes.



    "iab_categories": [
        {
            "id": "iab_12345",
            "type": "IAB",
            "category": "Party Supplies",
            "confidence": 0.9,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 2
        },
        {
            "id": "iab_67890",
            "type": "IAB",
            "category": "Decorations",
            "confidence": 0.8,
            "parent_name": "Events & Attractions",
            "taxonomy_level": 1
        }
    ],

Als Nächstes folgen die IAB-Kategorien, die an eine Antwort angefügt sind. Diese stellen verschiedene Arten von Werbeklassifizierungen dar, wobei die standardmäßige IAB-Taxonomie verwendet wird. Für jede Kategorie werden Konfidenzwert, taxonomy_level und parent_name für die allgemeine übergeordnete Kategorie angegeben.



    "content_moderation": [
        {
            "id": "mod_12345",
            "type": "MODERATION",
            "category": "Drugs & Tobacco Paraphernalia & Use",
            "confidence": 0.7,
            "parent_name": "Drugs & Tobacco",
            "taxonomy_level": 2
        }
    ], 
    ...

Die Inhaltsmoderation bietet Informationen über mögliche explizite Inhalte in einem Bild. Diese weisen jeweils einen Konfidenzwert und eine Kategorie auf, die den weiter oben in diesem Abschnitt beschriebenen Kategorien für die Inhaltsmoderation entsprechen.



    "text_words": [
        {
            "id": "word_1",
            "text": "lively",
            "confidence": 0.9,
            "line_id": "line_1",
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 50,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 150, "y": 200},
                        {"x": 150, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        },
        ...

In diesem Abschnitt wird jedes erkannte Wort in einem Bild aufgeschlüsselt, einschließlich Konfidenz und der Position auf dem Bildschirm innerhalb des Bildes. Außerdem wird mit line_id angegeben, in welcher Zeile sich das Wort befindet.



    "text_lines": [
        {
            "id": "line_1",
            "text": "lively party",
            "confidence": 0.9,
            "locations": [
                {
                    "bounding_box": {
                        "left": 100,
                        "top": 200,
                        "width": 200,
                        "height": 20
                    },
                    "polygon": [
                        {"x": 100, "y": 200},
                        {"x": 300, "y": 200},
                        {"x": 300, "y": 220},
                        {"x": 100, "y": 220}
                    ]
                }
            ]
        }
    ]
},

Hier werden Wörter in Zeilen erkannt und mit Konfidenzwert und Begrenzungsfeld angegeben.



"statistics": {
    "entity_count": 7,
    "object_count": 3,
    "line_count": 2,
    "word_count": 9
}
}

Zum Schluss kommen die Statistiken. Diese gliedern den gesamten Inhalt eines Bildes auf, u. a. mit Objekten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Dokumente

Videos