Récapitulatif vidéo complet Récapitulatifs de chapitres Taxonomie de l’IAB Transcription audio complète Texte dans la vidéo Détection de logo Modération de contenu Sortie vidéo standard

Vidéos

BDA propose un ensemble de sorties standard pour traiter et générer des insights pour les vidéos. Voici un aperçu détaillé de chaque type d’opération :

Récapitulatif vidéo complet

Le récapitulatif vidéo complet génère un résumé global de l’ensemble de la vidéo. Il résume les principaux thèmes, événements et informations présentés tout au long de la vidéo dans un récapitulatif concis. Le récapitulatif vidéo complet est optimisé pour les contenus comportant un dialogue descriptif, comme les présentations de produits, les formations, les émissions d’information, les talk-shows et les documentaires. BDA tente de donner un nom à chaque intervenant unique en fonction des signaux audio (par ex. l’intervenant se présente) ou visuels (par ex. une diapositive de présentation montre le nom d’un intervenant) dans les récapitulatifs vidéo complets et les récapitulatifs de scènes. Lorsque le nom d’un intervenant unique n’est pas identifié, il est représenté par un numéro unique (par ex. speaker_0).

Récapitulatifs de chapitres

Le récapitulatif des chapitres vidéo fournit des récapitulatifs descriptifs des scènes individuelles d’une vidéo. Un chapitre vidéo est une séquence de plans qui forme une unité cohérente d’action ou de narration au sein de la vidéo. Cette fonctionnalité décompose la vidéo en segments significatifs en fonction de repères visuels et audibles, fournit des horodatages pour ces segments et résume chacun d’entre eux.

Taxonomie de l’IAB

La classification de l’Interactive Advertising Bureau (IAB) applique une taxonomie publicitaire standard pour classer les scènes vidéo en fonction d’éléments visuels et audio. Pour la version préliminaire, BDA prend en charge 24 catégories de premier niveau (L1) et 85 catégories de deuxième niveau (L2). Pour télécharger la liste des catégories IAB prises en charge par BDA, cliquez ici.

Transcription audio complète

La fonctionnalité de transcription audio complète fournit une représentation textuelle complète de toutes les paroles du fichier audio. Elle transcrit avec précision le dialogue, la narration et d’autres éléments audio à l’aide d’une technologie avancée de reconnaissance vocale. La transcription inclut l’identification des intervenants, ce qui facilite la navigation et la recherche dans le contenu audio en fonction de l’intervenant.

Texte dans la vidéo

Cette fonctionnalité détecte et extrait le texte qui s’affiche visuellement dans la vidéo. Elle peut identifier à la fois le texte statique (comme les titres ou les légendes) et le texte dynamique (comme le texte en mouvement dans les graphiques). Semblable à la détection de texte d’image, elle fournit des informations de cadre de délimitation pour chaque élément de texte détecté, ce qui permet une localisation précise dans les trames vidéo.

Détection de logo

Cette fonctionnalité identifie les logos dans une vidéo et fournit des informations de cadre de délimitation, indiquant les coordonnées de chaque logo détecté dans la trame vidéo, ainsi que les scores de confiance. Cette fonctionnalité n’est pas activée par défaut.

Modération de contenu

La modération de contenu détecte le contenu inapproprié, indésirable ou offensant dans une vidéo. La BDA propose 7 catégories de modération : explicite, Non-Explicit nudité dans les parties intimes et baisers, maillots de bain ou sous-vêtements, violence, drogues et tabac, alcool, symboles haineux. Le texte explicite des vidéos n’est pas signalé.

Les cadres de délimitation et les scores de confiance associés peuvent être activés ou désactivés pour des fonctionnalités pertinentes telles que la détection de texte, afin de fournir des coordonnées de localisation et des horodatages dans le fichier vidéo. Par défaut, le récapitulatif vidéo complet, le récapitulatif des scènes et la détection du texte vidéo sont activés.

Note

Une seule piste audio par vidéo est prise en charge. Les formats de fichiers de sous-titres (par ex. SRT, VTT, etc.) ne sont pas pris en charge.

Sortie vidéo standard

Voici un exemple de sortie standard pour une vidéo traitée au moyen de BDA :


{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },

Cette section initiale traite des informations de métadonnées relatives à la vidéo. Cela inclut l’emplacement du compartiment, le format, la fréquence de trames et d’autres informations clés.



"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },

Il s’agit d’un exemple d’élément de plan dans une réponse. Les plans représentent de petites parties d’une vidéo, généralement associées à un montage ou à un découpage de la vidéo. Les plans contiennent des éléments de début et de fin, ainsi qu’un élément chapter_indicies. Cet élément indique la section plus grande de la vidéo, appelée chapitre, dont le plan fait partie.



"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Les chapitres sont des parties plus grandes d’une vidéo. Elles contiennent des informations de début et de fin telles que des plans, ainsi qu’un élément shot_indicies, qui vous indique les plans se trouvant dans un chapitre. Enfin, l’élément récapitulatif fournit un récapitulatif généré du contenu du chapitre.



 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },

La plus petite granularité d’une vidéo est une trame représentant une seule image au sein d’une vidéo. Les trames comportent notamment deux éléments de réponse : content_moderation et text_words. Le premier, content_moderation, vous fournit des informations basées sur les catégories de modération de contenu concernant le contenu de la trame, le cas échéant. Le second, text_words, vous fournit un emplacement et des informations sur tout texte s’affichant dans une vidéo, comme le sous-titrage.



    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}

Enfin, les statistiques fournissent une décomposition des informations relatives à la détection, comme le nombre de plans, d’intervenants et de chapitres contenus dans une vidéo donnée.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Images

Audio