翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
動画
BDA には、ビデオのインサイトを処理および生成するための一連の標準出力が用意されています。各オペレーションタイプの詳細を次に示します。
ビデオ全体の概要
完全な動画概要は、動画全体の全体的な概要を生成します。動画全体で表示される主要なテーマ、イベント、情報を簡潔な概要にまとめます。完全な動画概要は、製品概要、トレーニング、ニュースキャスト、トークショー、ドキュメンタリーなどの説明的な対話を含むコンテンツ用に最適化されています。BDA は、完全な動画概要とシーン概要で、オーディオシグナル (スピーカーが自己紹介するなど) またはビジュアルシグナル (プレゼンテーションスライドにスピーカーの名前が表示されるなど) に基づいて、一意の各スピーカーの名前を提供しようとします。一意のスピーカーの名前が解決されない場合は、一意の番号 (speaker_0 など) で表されます。
チャプターの概要
動画の章の概要は、動画内の個々のシーンの記述的な概要を提供します。動画の章は、動画内の一貫したアクション単位または説明文を形成する一連のショットです。この機能は、ビジュアルキューと音声キューに基づいて動画を意味のあるセグメントに分割し、それらのセグメントのタイムスタンプを提供し、それぞれを要約します。
IAB 分類
インタラクティブ広告局 (IAB) 分類は、標準的な広告分類を適用して、ビジュアル要素とオーディオ要素に基づいてビデオシーンを分類します。プレビューでは、BDA は 24 のトップレベル (L1) カテゴリと 85 のセカンドレベル (L2) カテゴリをサポートします。BDA でサポートされている IAB カテゴリのリストをダウンロードするには、ここをクリックします。
フルオーディオ文字起こし
完全なオーディオ文字起こし機能は、オーディオファイル内のすべての音声の完全なテキスト表現を提供します。高度な音声認識テクノロジーを使用して、会話、ナレーション、その他のオーディオ要素を正確に文字起こしします。文字起こしにはスピーカー識別が含まれているため、スピーカーに基づいてオーディオコンテンツを簡単にナビゲートおよび検索できます。
ビデオのテキスト
この機能は、ビデオに視覚的に表示されるテキストを検出して抽出します。静的テキスト (タイトルや字幕など) と動的テキスト (グラフィック内のテキストの移動など) の両方を識別できます。画像テキスト検出と同様に、検出された各テキスト要素の境界ボックス情報を提供し、ビデオフレーム内の正確なローカリゼーションを可能にします。
ロゴ検出
この機能はビデオ内のロゴを識別し、ビデオフレーム内で検出された各ロゴの座標と信頼スコアを示す境界ボックス情報を提供します。この機能はデフォルトでは有効になっていません。
コンテンツモデレーション
コンテンツモデレーションは、ビデオ内の不適切、望ましくない、または不快なコンテンツを検出します。BDA は 7 つのモデレーションカテゴリをサポートしています。明示的、非明示的な結合部分とキッシング、水着または下着、暴力、薬物とタバコ、アルコール、ヘイト記号です。ビデオ内の明示的なテキストにはフラグが付けられません。
境界ボックスと関連する信頼スコアは、テキスト検出などの関連機能に対して有効または無効にして、ビデオファイル内の位置座標とタイムスタンプを提供できます。デフォルトでは、完全な動画要約、シーン要約、動画テキスト検出が有効になっています。
注記
ビデオごとに 1 つのオーディオトラックのみがサポートされています。字幕ファイル形式 (SRT、VTT など) はサポートされていません。
ビデオ標準出力
BDA で処理されるビデオの標準出力の例を次に示します。
{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },
この最初のセクションでは、動画に関するメタデータ情報について説明します。これには、バケットの場所、形式、フレームレート、その他の主要な情報が含まれます。
"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },
これは、レスポンスのショット要素の例です。ショットは動画の小さな部分を表し、通常は動画の編集またはカットに関連付けられます。ショットには、開始要素と終了要素、および chapter_indicies 要素が含まれます。この要素は、動画のどの大きなセクションがチャプターと呼ばれ、ショットの一部であるかを示します。
"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
チャプターは動画のより大きな部分です。次に、ショットなどの開始情報と終了情報、および shot_indicies 要素が含まれます。shot_indicies は、チャプター内にあるショットを示します。最後に、 summary 要素は、生成された章の内容の概要を提供します。
"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },
ビデオの最小粒度はフレームで、ビデオ内の 1 つのイメージを表します。フレームには、content_moderation と text_words の 2 つの主なレスポンス要素があります。最初の content_moderation では、フレームの内容が検出された場合のコンテンツモデレーションのカタゴリーに基づいて情報が提供されます。2 番目の text_words は、クローズドキャプションなど、動画に表示されるテキストの場所と情報を提供します。
"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }
最後に、統計は、特定のビデオに含まれるショット、スピーカー、章の数など、検出に関する情報の内訳を提供します。