Video - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Video

BDA offre una serie di output standard per elaborare e generare approfondimenti per i video. Ecco una panoramica dettagliata di ogni tipo di operazione:

Riepilogo completo del video

Il riepilogo completo del video genera un riepilogo generale di tutto il video. Distilla i temi, gli eventi e le informazioni chiave presentati nel video in un riepilogo conciso. Il riepilogo completo del video è ottimizzato per contenuti con dialoghi descrittivi come panoramiche dei prodotti, corsi di formazione, notiziari, talk show e documentari. BDA cercherà di fornire un nome per ogni singola persona che parla in base a segnali audio (ad esempio la persona si presenta) o segnali visivi (ad esempio una diapositiva di presentazione mostra il nome di una persona che parla) nei riepiloghi completi del video e nei riepiloghi delle scene. Quando il nome di una persona che parla non viene risolto, viene rappresentato da un numero univoco (ad esempio, speaker_0).

Riepiloghi dei capitoli

Il riepilogo dei capitoli video fornisce riepiloghi descrittivi per le singole scene all’interno di un video. Un capitolo video è una sequenza di inquadrature che formano un’unità di azione o narrativa coerente all’interno del video. Questa funzionalità suddivide il video in segmenti significativi in base a segnali visivi e sonori, fornisce timestamp per tali segmenti e li riepiloga.

Tassonomia IAB

La classificazione IAB (Interactive Advertising Bureau) applica una tassonomia pubblicitaria standard per classificare le scene video sulla base di elementi visivi e audio. Per l’anteprima, BDA supporta 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l’elenco delle categorie IAB supportate da BDA, fai clic qui.

Trascrizione completa dell’audio

La funzionalità di trascrizione completa dell’audio fornisce una rappresentazione testuale completa di tutti i discorsi nel file audio. Utilizza una tecnologia avanzata di riconoscimento vocale per trascrivere con precisione dialoghi, narrazioni e altri elementi audio. La trascrizione include l’identificazione della persona che parla, il che semplifica la navigazione e la ricerca nei contenuti audio in base a chi parla.

Testo in video

Questa funzionalità rileva ed estrae il testo che appare visivamente nel video. Può identificare sia testo statico (come titoli o didascalie) che testo dinamico (come testo in movimento nella grafica). Analogamente al rilevamento del testo nelle immagini, fornisce informazioni sul riquadro di delimitazione per ogni elemento di testo rilevato, permettendo una localizzazione precisa all’interno dei fotogrammi video.

Rilevamento del logo

Questa funzionalità identifica i loghi in un video e fornisce informazioni sui riquadri di delimitazione, indicando le coordinate di ogni logo rilevato all’interno del fotogramma video e i punteggi di attendibilità. Questa funzionalità non è abilitata per impostazione predefinita.

Moderazione dei contenuti

La moderazione dei contenuti rileva contenuti inappropriati, indesiderati oppure offensivi in un video. BDA supporta sette categorie di moderazione: Nudità esplicita e non esplicita delle parti intime e baci, Costumi da bagno o biancheria intima, Violenza, Droghe e tabacco, Alcol, Simboli di odio. Il testo esplicito nei video non viene contrassegnato.

I riquadri di delimitazione e i relativi punteggi di affidabilità possono essere abilitati o disabilitati per funzionalità pertinenti come il rilevamento del testo, per fornire coordinate di posizione e timestamp nel file video. Per impostazione predefinita, sono abilitati il riepilogo completo del video, il riepilogo delle scene e il rilevamento del testo nel video.

Nota

È supportata una sola traccia audio per video. I formati di file dei sottotitoli (ad esempio SRT, VTT, ecc.) non sono supportati.

Output standard per video

Di seguito è riportato un esempio di output standard per un video elaborato tramite BDA:

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

Questa sezione iniziale illustra le informazioni sui metadati relative al video, tra cui la posizione del bucket, il formato, la frequenza dei fotogrammi e altre informazioni chiave.

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

Questo è un esempio di elemento shot in una risposta. Gli shot rappresentano piccole parti di un video, in genere associate a una modifica o a un taglio nel video. Gli shot contengono elementi iniziali e finali e anche un elemento chapter_indicies. Questo elemento indica a quale sezione più ampia del video, chiamata capitolo, fa parte lo shot.

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

I capitoli sono parti più grandi di un video. Contengono informazioni di inizio e fine come gli shot e un elemento shot_indicies, che indica quali shot sono inclusi in un capitolo. Infine, l’elemento di riepilogo fornisce un riepilogo generato dei contenuti del capitolo.

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

La granularità minima di un video è un fotogramma, che rappresenta una singola immagine all’interno di un video. I fotogrammi contengono due elementi di risposta di particolare rilievo: content_moderation e text_words. Il primo, content_moderation, fornisce informazioni basate sulle categorie di moderazione dei contenuti relative al contenuto del fotogramma, se ne viene rilevata una. Il secondo, text_words, fornisce una posizione e informazioni su qualsiasi testo che appare in un video, come i sottotitoli codificati.

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

Infine, le statistiche forniscono una suddivisione delle informazioni sul rilevamento, ad esempio il numero di shot, persone che parlano e capitoli presenti in un determinato video.