動画 - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

動画

BDA には、動画のインサイトを処理および生成するための標準出力セットが用意されています。各オペレーションタイプの詳細を次に示します。

動画全体の概要

動画全体の概要は、動画について全体的な概要を生成します。動画全体で表示される主要なテーマ、イベント、および情報を簡潔な概要にまとめます。動画全体の概要は、製品概要、トレーニング、ニュースキャスト、トークショー、ドキュメンタリーなど、説明的な対話を含むコンテンツ向けに最適化されています。BDA は、動画全体の概要とシーンの概要に含まれるオーディオシグナル (例: 話者が自己紹介をする) またはビジュアルシグナル (例: プレゼンテーションスライドに話者の名前が表示される) に基づいて、一意の話者ごとに名前を付けようとします。一意の話者の名前が解決されない場合は、一意の番号 (speaker_0 など) で表されます。

章のサマリー

動画の章の概要は、ビデオ内の個々のシーンのわかりやすい概要になります。動画の章は、動画内でアクションまたは物語の一貫した単位を形成する一連のショットです。この機能は、ビジュアルキュートとオーディブルキューに基づいて動画を意味のあるセグメントに分割し、セグメントにタイムスタンプを付けてそれぞれを要約します。

IAB 分類

Interactive Advertising Bureau (IAB) 分類では、標準的な広告分類法を適用し、ビジュアル要素とオーディオ要素に基づいて動画のシーンを分類します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、ここをクリックしてください。

オーディオ全体の文字起こし

オーディオ全体の文字起こし機能は、オーディオファイル内のすべての発話を完全なテキストで表現します。高度な音声認識テクノロジーを使用して、対話、ナレーション、その他のオーディオ要素を正確に書き起こします。文字起こしには話者の識別が含まれるため、話者に基づいてオーディオ コンテンツ内を簡単に移動および検索できます。

ビデオ内のテキスト

この機能は、ビデオに視覚的に表示されるテキストを検出して抽出します。静的テキスト (タイトルや字幕など) と動的テキスト (グラフィック内の動くテキストなど) の両方を識別できます。画像テキスト検出と同様に、検出された各テキスト要素の境界ボックス情報を提供するため、ビデオフレーム内の正確なローカリゼーションが可能です。

ロゴ検出

この機能はビデオ内のロゴを識別して、ビデオフレーム内で検出された各ロゴの座標を示す境界ボックス情報および信頼度スコアを提供します。この機能は、デフォルトでは有効になっていません。

コンテンツモデレーション

コンテンツモデレーションでは、ビデオ内の不適切なコンテンツ、望ましくないコンテンツ、または不快なコンテンツを検出します。BDA は、露骨な描写、局部を含む控えめなヌードやキスの描写、水着または下着、暴力、薬物とタバコ、アルコール、ヘイトシンボルという 7 つのモデレーションカテゴリをサポートします。ビデオ内の露骨なテキストにはフラグは付きません。

境界ボックスと関連する信頼度スコアは、テキスト検出など、ビデオ内の位置座標を提供する関連機能で有効または無効にすることができます。デフォルトでは、ビデオ全体の概要、シーンの概要、およびビデオテキスト検出が有効になっています。

注記

ビデオごとに 1 つのオーディオトラックのみがサポートされています。字幕ファイル形式 (SRT、VTT など) はサポートされていません。

ビデオ標準出力

BDA で処理されたビデオの標準出力の例を次に示します。

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

この最初のセクションでは、ビデオに関するメタデータ情報について説明します。これには、バケットの場所、形式、フレーム レート、その他の重要な情報が含まれます。

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

これは、応答のショット要素の例です。ショットとはビデオの一部分であり、通常、ビデオの編集やカットに関連付けられています。ショットには、開始要素と終了要素、および chapter_indicies 要素が含まれます。この要素は、ショットが、ビデオのより大きなセクション (章という) のどれに属しているかを示します。

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

章はビデオよりも大きなくくりになります。次に、ショットなどの開始情報と終了情報、および shot_indicies 要素を含めます。shot_indicies は、任意の章内にどのショットが含まれるかを示します。最後に、概要要素は、章のコンテンツについて生成された概要を提供します。

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

ビデオの最小粒度はフレームで、ビデオ内にある 1 つの画像を表します。フレームには、content_moderation と text_words という 2 つの重要な応答要素があります。1 つ目の content_moderation は、フレームのコンテンツが検出された場合に、コンテンツモデレーションカテゴリに基づいてそのコンテンツに関する情報を提供します。2 番目の text_words は、クローズドキャプションなど、ビデオ内に表示されるテキストの場所と情報を提供します。

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

最後に、統計では、特定のビデオに含まれるショット、話者、章の数など、検出に関する情報の内訳が提供されます。