Ringkasan Video Lengkap Ringkasan Bab Taksonomi IAB Transkrip Audio Lengkap Teks dalam Video Deteksi Logo Moderasi Konten Output Standar Video

Video

BDA menawarkan serangkaian output standar untuk memproses dan menghasilkan wawasan untuk video. Berikut adalah tampilan rinci pada setiap jenis operasi:

Ringkasan Video Lengkap

Ringkasan video lengkap menghasilkan ringkasan keseluruhan dari seluruh video. Ini menyaring tema utama, peristiwa, dan informasi yang disajikan di seluruh video menjadi ringkasan singkat. Ringkasan video lengkap dioptimalkan untuk konten dengan dialog deskriptif seperti ikhtisar produk, pelatihan, pemeran berita, acara bincang-bincang, dan dokumenter. BDA akan mencoba memberikan nama untuk setiap pembicara unik berdasarkan sinyal audio (misalnya, pembicara memperkenalkan dirinya sendiri) atau sinyal visual (misalnya, slide presentasi menunjukkan nama pembicara) dalam ringkasan video lengkap dan ringkasan adegan. Ketika nama pembicara unik tidak diselesaikan, mereka akan diwakili oleh nomor unik (misalnya, speaker_0).

Ringkasan Bab

Ringkasan Bab Video memberikan ringkasan deskriptif untuk masing-masing adegan dalam video. Bab video adalah urutan pengambilan gambar yang membentuk unit aksi atau narasi yang koheren dalam video. Fitur ini memecah video menjadi segmen yang bermakna berdasarkan isyarat visual dan suara, menyediakan stempel waktu untuk segmen tersebut, dan merangkum masing-masing.

Taksonomi IAB

Klasifikasi Interactive Advertising Bureau (IAB) menerapkan taksonomi iklan standar untuk mengklasifikasikan adegan video berdasarkan elemen visual dan audio. Untuk Pratinjau, BDA akan mendukung 24 kategori tingkat atas (L1) dan 85 kategori tingkat kedua (L2). Untuk mengunduh daftar kategori IAB yang didukung oleh BDA, klik di sini.

Transkrip Audio Lengkap

Fitur transkrip audio lengkap menyediakan representasi teks lengkap dari semua ucapan dalam file audio. Ini menggunakan teknologi pengenalan suara canggih untuk secara akurat menyalin dialog, narasi, dan elemen audio lainnya. Transkripsi mencakup identifikasi speaker, sehingga mudah untuk menavigasi dan mencari melalui konten audio berdasarkan speaker.

Teks dalam Video

Fitur ini mendeteksi dan mengekstrak teks yang muncul secara visual dalam video. Ini dapat mengidentifikasi teks statis (seperti judul atau keterangan) dan teks dinamis (seperti teks bergerak dalam grafik). Mirip dengan deteksi teks gambar, ini menyediakan informasi kotak pembatas untuk setiap elemen teks yang terdeteksi, memungkinkan pelokalan yang tepat dalam bingkai video.

Deteksi Logo

Fitur ini mengidentifikasi logo dalam video dan menyediakan informasi kotak pembatas, menunjukkan koordinat setiap logo yang terdeteksi dalam bingkai video, dan skor kepercayaan. Fitur ini tidak diaktifkan secara default.

Moderasi Konten

Moderasi konten mendeteksi konten yang tidak pantas, tidak diinginkan, atau menyinggung dalam video. BDA mendukung 7 kategori moderasi: Eksplisit, Non-Explicit Ketelanjangan bagian Intim dan Ciuman, Pakaian Renang atau Pakaian Dalam, Kekerasan, Narkoba & Tembakau, Alkohol, Simbol kebencian. Teks eksplisit dalam video tidak ditandai.

Kotak pembatas dan skor kepercayaan terkait dapat diaktifkan atau dinonaktifkan untuk fitur yang relevan seperti deteksi teks, untuk menyediakan koordinat lokasi dan stempel waktu dalam file video. Secara default, ringkasan video lengkap, ringkasan adegan, dan deteksi teks video diaktifkan.

catatan

Hanya satu trek audio per video yang didukung. Format file subtitle (misalnya, SRT, VTT, dll.) Tidak didukung.

Output Standar Video

Berikut ini adalah contoh output standar untuk video yang diproses melalui BDA:


{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },

Bagian awal ini membahas informasi metadata mengenai video. Ini termasuk lokasi bucket, format, frame rate, dan informasi penting lainnya.



"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },

Ini adalah contoh elemen tembakan dalam respons. Tembakan mewakili bagian kecil dari video, biasanya dikaitkan dengan mengedit atau memotong video. Tembakan berisi elemen awal dan akhir, dan juga elemen chapter_indicies. Elemen ini menunjukkan bagian video mana yang lebih besar, yang disebut chapter, bidikan adalah bagian dari.



"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Bab adalah bagian video yang lebih besar. Kemudian berisi informasi awal dan akhir seperti tembakan, dan elemen shot_indicies. shot_indicies memberi tahu Anda bidikan mana yang ada dalam satu chapter. Akhirnya, elemen ringkasan, memberikan ringkasan yang dihasilkan dari konten chapter.



 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },

Granularitas terkecil dari sebuah video adalah bingkai, mewakili satu gambar dalam video. Frame memiliki dua elemen respons, content_moderation dan text_words. Yang pertama, content_moderation memberi Anda informasi berdasarkan katalog moderasi konten tentang konten bingkai jika ada yang terdeteksi. Yang kedua, text_words, memberi Anda lokasi dan informasi tentang teks apa pun yang muncul dalam video, seperti teks tertutup.



    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}

Akhirnya, statistik memberikan rincian informasi tentang deteksi, seperti berapa banyak bidikan, speaker, dan chapter dalam video tertentu.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Citra

Audio