映像 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

映像

Amazon Bedrock Data Automation (BDA) 功能提供一組可用於影像處理的完整標準輸出,以從影像產生洞見。您可以使用這些洞見來實現各種應用和使用案例,例如內容探索、情境廣告投放和品牌安全。以下概觀說明影像標準輸出中可用的每種操作類型:

影像摘要

影像摘要會產生影像的描述性字幕。預設會在標準輸出組態中啟用此功能。

IAB 分類法

互動廣告協會 (IAB) 分類會套用標準廣告分類法來分類影像內容。對於預覽版,BDA 將支援 24 個第一層 (L1) 類別和 85 個第二層 (L2) 類別。若要下載 BDA 支援的 IAB 類別清單,請按一下這裡

標誌偵測

此功能可識別影像中的標誌並提供週框方塊資訊,指出影像中每個偵測到標誌的座標,以及可信度分數。此功能預設為不啟用。

影像文字偵測

此功能會偵測並擷取影像中以視覺方式顯示的文字,並提供週框方塊資訊,指出影像中每個偵測到文字元素的座標,以及可信度分數。預設會在標準輸出組態中啟用此功能。

內容審核

內容審核會偵測影像中不適當、不需要或令人反感的內容。對於預覽版,BDA 將支援 7 個審核類別:露骨與非露骨的私密部位裸體及接吻、泳裝或內衣、暴力、藥物和煙草、酒精、仇恨符號。影像中的露骨文字不會標記出來。

您可以針對文字偵測等相關功能啟用或停用週框方塊和相關聯的可信度分數,以在影像中提供位置座標。根據預設,會啟用影像摘要和影像文字偵測。

影像標準輸出

以下範例是透過 BDA 處理之影像的標準輸出。每個區段的內容已縮短,並以說明分隔。

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

回應的第一部分是影像的中繼資料。其中為您提供檔案名稱、編碼類型、s3 儲存貯體位置,以及有關內容的進一步資訊。

"image": { "summary": "Lively party scene with decorations and supplies",

回應的開頭是影像的生成式摘要。

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

接著,我們看到與回應連接的 IAB 類別。這些代表不同類型的廣告分類 (使用標準 IAB 分類法)。每個分類都有可信度分數、taxonomy_level 和一般高階類別的 parent_name。

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

內容審核包含影像中可能露骨內容的相關資訊。這些都分別具有可信度分數和類別,符合本節稍早討論的內容審核類別。

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

本節會細分影像中每個偵測到的字詞,包括可信度和影像中的螢幕上位置。其也會使用 line_id 來標記字詞所在的行。

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

在這裡,系統會在字詞集體行中偵測到字詞,其中包含可信度分數和週框方塊。

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

最後,我們有統計資料。這些會細分影像中的所有內容 (包括物件)