Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Video
BDA offre una serie di output standard per elaborare e generare informazioni dettagliate per i video. Ecco una panoramica dettagliata di ogni tipo di operazione:
Riepilogo completo del video
Il riepilogo completo del video genera un riepilogo generale dell'intero video. Riassume i temi, gli eventi e le informazioni chiave presentati nel video in un riepilogo conciso. Il riepilogo video completo è ottimizzato per contenuti con dialoghi descrittivi come panoramiche dei prodotti, corsi di formazione, notiziari, talk show e documentari. BDA cercherà di fornire un nome per ogni relatore univoco in base a segnali audio (ad esempio, l'oratore si presenta) o segnali visivi (ad esempio, una diapositiva di presentazione mostra il nome di un oratore) nei riepiloghi video completi e nei riepiloghi delle scene. Quando il nome di un oratore univoco non viene risolto, verrà rappresentato da un numero univoco (ad esempio, speaker_0).
Riepiloghi dei capitoli
Il riepilogo dei capitoli video fornisce riepiloghi descrittivi per le singole scene all'interno di un video. Un capitolo video è una sequenza di inquadrature che formano un'unità d'azione o narrativa coerente all'interno del video. Questa funzione suddivide il video in segmenti significativi sulla base di segnali visivi e sonori, fornisce timestamp per tali segmenti e li riepiloga.
Tassonomia IAB
La classificazione Interactive Advertising Bureau (IAB) applica una tassonomia pubblicitaria standard per classificare le scene video sulla base di elementi visivi e audio. Per l'anteprima, BDA supporterà 24 categorie di primo livello (L1) e 85 categorie di secondo livello (L2). Per scaricare l'elenco delle categorie IAB supportate da BDA, fai clic qui.
Trascrizione audio completa
La funzione di trascrizione audio completa fornisce una rappresentazione testuale completa di tutti i discorsi nel file audio. Utilizza una tecnologia avanzata di riconoscimento vocale per trascrivere con precisione dialoghi, narrazioni e altri elementi audio. La trascrizione include l'identificazione dell'oratore, che semplifica la navigazione e la ricerca tra i contenuti audio in base all'oratore.
Testo in video
Questa funzione rileva ed estrae il testo che appare visivamente nel video. Può identificare sia testo statico (come titoli o didascalie) che testo dinamico (come testo in movimento nella grafica). Analogamente al rilevamento del testo nelle immagini, fornisce informazioni sul riquadro di delimitazione per ogni elemento di testo rilevato, permettendo una localizzazione precisa all'interno dei fotogrammi video.
Rilevamento del logo
Questa funzione identifica i loghi in un video e fornisce informazioni sui riquadri di delimitazione, indicando le coordinate di ogni logo rilevato all'interno del fotogramma video e i punteggi di affidabilità. Questa funzionalità non è abilitata per impostazione predefinita.
Moderazione dei contenuti
La moderazione dei contenuti rileva contenuti inappropriati, indesiderati o offensivi in un video. BDA supporta 7 categorie di moderazione: nudità esplicita e non esplicita delle parti intime e baci, costumi da bagno o biancheria intima, violenza, droghe e tabacco, alcol, simboli di odio. Il testo esplicito nei video non viene contrassegnato.
I riquadri di delimitazione e i relativi punteggi di confidenza possono essere abilitati o disabilitati per funzioni pertinenti come il rilevamento del testo, per fornire coordinate di posizione e timestamp nel file video. Per impostazione predefinita, sono abilitati il riepilogo completo del video, il riepilogo delle scene e il rilevamento del testo video.
Nota
È supportata una sola traccia audio per video. I formati di file dei sottotitoli (ad esempio SRT, VTT, ecc.) non sono supportati.
Uscita video standard
Di seguito è riportato un esempio di uscita standard per un video elaborato tramite BDA:
{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },
Questa sezione iniziale illustra le informazioni sui metadati relative al video. Ciò include la posizione del bucket, il formato, la frequenza dei fotogrammi e altre informazioni chiave.
"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },
Questo è un esempio di elemento shot in una risposta. Le riprese rappresentano piccole porzioni di un video, in genere associate a una modifica o a un taglio del video. Le riprese contengono elementi iniziali e finali e anche un elemento chapter_indicies. Questo elemento indica a quale sezione più ampia del video, chiamata capitolo, fa parte la ripresa.
"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",
I capitoli sono parti più grandi di un video. Quindi contengono informazioni di inizio e fine come le inquadrature e un elemento shot_indicies. shot_indicies ti dice quali riprese sono incluse in un capitolo. Infine, l'elemento di riepilogo fornisce un riepilogo generato del contenuto del capitolo.
"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },
La granularità minima di un video è un fotogramma, che rappresenta una singola immagine all'interno di un video. I frame hanno in particolare due elementi di risposta, content_moderation e text_words. Il primo, content_moderation, fornisce informazioni basate sulle categorie di moderazione dei contenuti relative al contenuto del frame, se ne viene rilevato uno. La seconda, text_words, fornisce una posizione e informazioni su qualsiasi testo che appare in un video, come i sottotitoli codificati.
"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }
Infine, le statistiche forniscono una suddivisione delle informazioni sul rilevamento, ad esempio il numero di riprese, gli oratori e i capitoli presenti in un determinato video.