イメージ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

イメージ

Amazon Bedrock Data Automation (BDA) 機能は、画像処理を行って画像からインサイトを生成するための包括的な標準出力のセットを提供します。このインサイトを使用すると、コンテンツ検出、コンテキストに応じた広告配置、ブランドの安全性など、幅広いアプリケーションやユースケースを実現できます。画像の標準出力の一部として使用できる各オペレーションタイプの概要を次に示します。

画像概要

画像概要により、画像のわかりやすいキャプションを生成します。この機能は、標準出力設定内でデフォルトで有効になっています。

IAB 分類

Interactive Advertising Bureau (IAB) 分類により、標準の広告分類を適用して画像コンテンツを分類します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、ここをクリックしてください。

ロゴ検出

この機能により、画像内のロゴを識別し、画像内で検出された各ロゴの座標を示す境界ボックス情報と信頼度スコアを提供します。この機能は、デフォルトでは有効になっていません。

画像テキスト検出

この機能により、画像に視覚的に表示されるテキストを検出して抽出し、画像内で検出された各テキスト要素の座標を示す境界ボックス情報と信頼度スコアを提供します。この機能は、標準出力設定内でデフォルトで有効になっています。

コンテンツモデレーション

コンテンツモデレーションにより、画像内の不適切なコンテンツ、望ましくないコンテンツ、または不快なコンテンツを検出します。プレビューでは、BDA は、露骨な描写、局部を含む控えめなヌードやキスの描写、水着または下着、暴力、薬物とタバコ、アルコール、ヘイトシンボルという 7 つのモデレーションカテゴリをサポートします。画像内の露骨なテキストにはフラグが付けられません。

境界ボックスと関連する信頼度スコアは、テキスト検出など、画像内の位置座標を提供する関連機能で有効または無効にすることができます。デフォルトでは、画像概要と画像テキスト検出が有効になっています。

画像の標準出力

BDA で処理された画像の標準出力の例を次に示します。各セクションは短縮され、説明で区切られています。

{ "metadata": { "id": "image_123", "semantic_modality": "IMAGE", "s3_bucket": "my-s3-bucket", "s3_prefix": "images/", "image_width_pixels": 1920, "image_height_pixels": 1080, "color_depth": 24, "image_encoding": "JPEG" },

レスポンスの最初の部分は、画像のメタデータです。これは、ファイル名、エンコードタイプ、S3 バケットの場所、コンテンツに関する詳細情報を提供します。

"image": { "summary": "Lively party scene with decorations and supplies",

レスポンスの先頭にあるのは、画像の生成概要です。

"iab_categories": [ { "id": "iab_12345", "type": "IAB", "category": "Party Supplies", "confidence": 0.9, "parent_name": "Events & Attractions", "taxonomy_level": 2 }, { "id": "iab_67890", "type": "IAB", "category": "Decorations", "confidence": 0.8, "parent_name": "Events & Attractions", "taxonomy_level": 1 } ],

次に、レスポンスにアタッチされた IAB カテゴリがあります。これらは、標準の IAB 分類を使用した、さまざまなタイプの広告分類を表します。各カテゴリに、信頼度スコア、taxonomy_level、一般的な上位カテゴリを示す parent_name があります。

"content_moderation": [ { "id": "mod_12345", "type": "MODERATION", "category": "Drugs & Tobacco Paraphernalia & Use", "confidence": 0.7, "parent_name": "Drugs & Tobacco", "taxonomy_level": 2 } ], ...

コンテンツモデレーションには、画像内の露骨であると考えられるコンテンツに関する情報が含まれます。これらにはそれぞれ信頼度スコアとカテゴリがあり、このセクションで前述したコンテンツモデレーションカテゴリと一致しています。

"text_words": [ { "id": "word_1", "text": "lively", "confidence": 0.9, "line_id": "line_1", "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 50, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 150, "y": 200}, {"x": 150, "y": 220}, {"x": 100, "y": 220} ] } ] }, ...

このセクションは、信頼度や画像内の画面上の位置など、画像内で検出された各単語の明細を示します。また、line_id を使用して、単語がある行にフラグが付けられます。

"text_lines": [ { "id": "line_1", "text": "lively party", "confidence": 0.9, "locations": [ { "bounding_box": { "left": 100, "top": 200, "width": 200, "height": 20 }, "polygon": [ {"x": 100, "y": 200}, {"x": 300, "y": 200}, {"x": 300, "y": 220}, {"x": 100, "y": 220} ] } ] } ] },

ここでは、複数の単語が 1 行単位でまとめて検出され、信頼度スコアと境界ボックスが示されます。

"statistics": { "entity_count": 7, "object_count": 3, "line_count": 2, "word_count": 9 } }

最後に、統計情報があります。これらは、オブジェクトなど、画像内のすべてのコンテンツの内訳を示します