Resumo de vídeo completo Resumo de capítulos Taxonomia do IAB Transcrição de áudio completo Texto em vídeo Detecção de logotipo Moderação de conteúdo Saída de vídeo padrão

Vídeos

A BDA oferece um conjunto de saídas padrão para processar e gerar insights para vídeos. Veja abaixo uma visão detalhada de cada tipo de operação:

Resumo de vídeo completo

O resumo de vídeo completo gera um resumo geral de todo o vídeo. Essa operação extrai os principais temas, eventos e informações apresentados ao longo do vídeo e oferece um resumo conciso. O resumo de vídeo completo é otimizado para conteúdo com diálogos descritivos, como visões gerais de produtos, treinamentos, noticiários, programas de entrevistas e documentários. A BDA tentará fornecer um nome para cada locutor exclusivo com base em sinais de áudio (p. ex., o locutor se apresenta) ou sinais visuais (p. ex., um slide de apresentação mostra o nome do locutor) no resumo de vídeo completo e no resumo de cena. Quando o nome de um locutor exclusivo não for resolvido, ele será representado por um número exclusivo (p. ex., speaker_0).

Resumo de capítulos

O resumo de capítulos de vídeo fornece resumos descritivos de cenas individuais em um vídeo. Um capítulo de vídeo é uma sequência de cenas que formam uma unidade coerente de ação ou narrativa dentro do vídeo. Esse recurso divide o vídeo em segmentos significativos com base em sinais visuais e sonoros, fornece carimbos de data/hora para esses segmentos e resume cada um.

Taxonomia do IAB

A classificação do Interactive Advertising Bureau (IAB) aplica uma taxonomia de publicidade padrão para classificar cenas de vídeo com base em elementos visuais e de áudio. Na versão prévia, a BDA atenderá a 24 categorias de nível superior (L1) e 85 categorias de nível secundário (L2). Para baixar a lista de categorias do IAB atendias pela BDA, clique aqui;

Transcrição de áudio completo

A transcrição de áudio completo oferece uma representação de texto completa de toda a fala no arquivo de áudio. Esse recurso usa tecnologia avançada de reconhecimento de fala para transcrever com precisão diálogos, narrações e outros elementos de áudio. A transcrição inclui a identificação do locutor, facilitando o processo de pesquisa do conteúdo de áudio com base no locutor.

Texto em vídeo

Esse recurso detecta e extrai o texto que aparece visualmente no vídeo. Ele pode identificar texto estático (como títulos ou legendas) e texto dinâmico (como texto em movimento em elementos gráficos). De modo semelhante à detecção de texto de imagem, o recurso fornece informações da caixa delimitadora para cada elemento de texto detectado, permitindo uma localização precisa em quadros de vídeo.

Detecção de logotipo

Esse recurso identifica logotipos em um vídeo e fornece informações sobre a caixa delimitadora, indicando as coordenadas de cada logotipo detectado no quadro de vídeo e as pontuações de confiança. Esse recurso não está habilitado por padrão.

Moderação de conteúdo

A moderação de conteúdo detecta conteúdo impróprio, indesejado ou ofensivo em um vídeo. O BDA suporta 7 categorias de moderação: explícita, Non-Explicit nudez nas partes íntimas e beijos, roupas de banho ou roupas íntimas, violência, drogas e tabaco, álcool, símbolos de ódio. O texto explícito em vídeos não é sinalizado.

As caixas delimitadoras e as pontuações de confiança associadas podem ser habilitadas ou desabilitadas para recursos relevantes, como detecção de texto, para fornecer coordenadas de localização no arquivo de vídeo. Por padrão, o resumo de vídeo completo, o resumo de cena e a detecção de texto de vídeo estão habilitados.

nota

Só é possível aplicar o recurso a uma faixa de áudio por vídeo. Não é possível usar formatos de arquivo de legenda (p. ex., SRT, VTT etc.).

Saída de vídeo padrão

Veja a seguir um exemplo de saída padrão para um vídeo processada por meio da BDA.


{
"metadata": {
    "asset_id": "0",
    "semantic_modality": "VIDEO",
    "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1",
    "s3_key": "demo-assets/Video/MakingTheCut.mp4",
    "format": "QuickTime / MOV",
    "frame_rate": 30,
    "codec": "h264",
    "duration_millis": 378233,
    "frame_width": 852,
    "frame_height": 480
  },

Esta seção inicial discute as informações de metadados referentes ao vídeo. Isso inclui a localização do bucket, o formato, a taxa de quadros e outras informações importantes.



"shots": [ ...

    {
      "shot_index": 3,
      "start_timecode_smpte": "00:00:08:19",
      "end_timecode_smpte": "00:00:09:25",
      "start_timestamp_millis": 8633,
      "end_timestamp_millis": 9833,
      "start_frame_index": 259,
      "end_frame_index": 295,
      "duration_smpte": "00:00:01:06",
      "duration_millis": 1200,
      "duration_frames": 36,
      "confidence": 0.9956437242589935,
      "chapter_indices": [
        1
      ]
    },

Este é um exemplo de uma tomada de vídeo em uma resposta. As tomadas representam pequenas partes de um vídeo, normalmente associadas a uma edição ou corte no vídeo. As tomadas contêm elementos iniciais e finais, além de um elemento chapter_indicies. Esse elemento indica de qual seção maior do vídeo, chamada de capítulo, a tomada faz parte.



"chapters": [
    {
      "start_timecode_smpte": "00:00:00:00",
      "end_timecode_smpte": "00:00:08:18",
      "start_timestamp_millis": 0,
      "end_timestamp_millis": 8600,
      "start_frame_index": 0,
      "end_frame_index": 258,
      "duration_millis": 8600,
      "shot_indices": [
        0,
        1,
        2
      ],
      "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Os capítulos são partes maiores de um vídeo. Portanto, contêm informações de início e fim, como tomadas e um elemento shot_indicies. Os shot_indicies informam quais tomadas estão dentro de um capítulo. Finalmente, o elemento de resumo oferece um resumo gerado do conteúdo do capítulo.



 "frames": [...
         {
          "timecode_smpte": "00:00:03:15",
          "timestamp_millis": 3500,
          "frame_index": 105,
          "content_moderation": [],
          "text_words": [
            {
              "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc",
              "type": "TEXT_WORD",
              "confidence": 0.99844897,
              "text": "ANDREA",
              "locations": [
                {
                  "bounding_box": {
                    "left": 0.1056338,
                    "top": 0.7363281,
                    "width": 0.19806337,
                    "height": 0.068359375
                  },
                  "polygon": [
                    {
                      "x": 0.1056338,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.7363281
                    },
                    {
                      "x": 0.30369717,
                      "y": 0.8046875
                    },
                    {
                      "x": 0.1056338,
                      "y": 0.8046875
                    }
                  ]
                }
              ],
              "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2"
            },

A menor granularidade de um vídeo é um quadro, representando uma única imagem dentro de um vídeo. Vale observar que os quadros têm dois elementos de resposta, content_moderation e text_words. A primeira, content_moderation, fornece informações com base nas categorias de moderação de conteúdo do quadro, se alguma for detectada. A segunda, text_words, fornece uma localização e informações sobre qualquer texto que apareça em um vídeo, como legendas ocultas.



    "statistics": {
    "shot_count": 148,
    "chapter_count": 11,
    "speaker_count": 11
  }
}

Por fim, as estatísticas fornecem um detalhamento das informações sobre a detecção, como o número de tomadas, locutores e capítulos em um determinado vídeo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Imagens

Áudio