Videos - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Videos

BDA bietet eine Reihe von Standardausgaben zur Verarbeitung und Generierung von Erkenntnissen für Videos. Hier finden Sie einen detaillierten Überblick über die einzelnen Operationstypen:

Vollständige Videozusammenfassung

Die vollständige Videozusammenfassung generiert eine allgemeine Zusammenfassung des gesamten Videos. Es fasst die wichtigsten Themen, Ereignisse und Informationen, die im Video präsentiert werden, in einer kurzen Zusammenfassung zusammen. Die vollständige Videozusammenfassung ist für Inhalte mit beschreibendem Dialog wie Produktübersichten, Schulungen, Nachrichtenübertragungen, Talkshows und Dokumentarfilme optimiert. BDA versucht, jedem einzelnen Sprecher anhand von Audiosignalen (z. B. stellt sich der Sprecher vor) oder visuellen Signalen (z. B. eine Präsentationsfolie zeigt den Namen eines Sprechers) in den vollständigen Video- und Szenenzusammenfassungen einen Namen zu geben. Wenn der Name eines eindeutigen Sprechers nicht geklärt werden kann, wird er durch eine eindeutige Nummer dargestellt (z. B. speaker_0).

Zusammenfassungen der Kapitel

Die Zusammenfassung von Videokapiteln bietet beschreibende Zusammenfassungen für einzelne Szenen innerhalb eines Videos. Ein Videokapitel ist eine Abfolge von Aufnahmen, die innerhalb des Videos eine kohärente Handlungs- oder Erzähleinheit bilden. Diese Funktion unterteilt das Video anhand von visuellen und akustischen Hinweisen in aussagekräftige Abschnitte, stellt Zeitstempel für diese Segmente bereit und fasst die einzelnen Abschnitte zusammen.

IAB-Taxonomie

Die Klassifikation des Interactive Advertising Bureau (IAB) wendet eine Standardtaxonomie für Werbung an, um Videoszenen auf der Grundlage von Bild- und Audioelementen zu klassifizieren. Für die Vorschauversion wird BDA 24 Kategorien der obersten Ebene (L1) und 85 Kategorien der zweiten Ebene (L2) unterstützen. Um die Liste der von BDA unterstützten IAB-Kategorien herunterzuladen, klicken Sie hier.

Vollständiges Audio-Transkript

Die vollständige Audiotranskriptfunktion bietet eine vollständige Textdarstellung der gesamten Sprache in der Audiodatei. Es verwendet fortschrittliche Spracherkennungstechnologie, um Dialoge, Erzählungen und andere Audioelemente präzise zu transkribieren. Die Transkription beinhaltet die Identifizierung des Sprechers, sodass die Navigation und Suche in den Audioinhalten anhand des Sprechers einfach ist.

Text im Video

Diese Funktion erkennt und extrahiert Text, der visuell im Video erscheint. Es kann sowohl statischen Text (wie Titel oder Bildunterschriften) als auch dynamischen Text (z. B. bewegter Text in Grafiken) identifizieren. Ähnlich wie bei der Bildtexterkennung stellt sie Bounding-Box-Informationen für jedes erkannte Textelement bereit und ermöglicht so eine präzise Lokalisierung innerhalb von Videoframes.

Erkennung von Logos

Diese Funktion identifiziert Logos in einem Video und liefert Bounding-Box-Informationen, die die Koordinaten der einzelnen erkannten Logos innerhalb des Videoframes sowie Konfidenzwerte angeben. Diese Funktion ist standardmäßig nicht aktiviert.

Moderation von Inhalten

Bei der Inhaltsmoderation werden unangemessene, unerwünschte oder anstößige Inhalte in einem Video erkannt. BDA unterstützt 7 Moderationskategorien: Explizite, nicht explizite Nacktheit intimer Bereiche und Küssen, Bademode oder Unterwäsche, Gewalt, Drogen und Tabak, Alkohol, Hasssymbole. Expliziter Text in Videos wird nicht gekennzeichnet.

Begrenzungsrahmen und die zugehörigen Konfidenzwerte können für relevante Funktionen wie die Texterkennung aktiviert oder deaktiviert werden, um Ortskoordinaten und Zeitstempel in der Videodatei bereitzustellen. Standardmäßig sind die vollständige Videozusammenfassung, die Szenenzusammenfassung und die Videotexterkennung aktiviert.

Anmerkung

Pro Video wird nur eine Audiospur unterstützt. Untertitel-Dateiformate (z. B. SRT, VTT usw.) werden nicht unterstützt.

Video-Standardausgabe

Im Folgenden finden Sie ein Beispiel für eine Standardausgabe für ein mit BDA verarbeitetes Video:

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

In diesem ersten Abschnitt werden Metadateninformationen zum Video behandelt. Dazu gehören die Position des Buckets, das Format, die Bildrate und andere wichtige Informationen.

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

Dies ist ein Beispiel für ein Shot-Element in einer Antwort. Bei Aufnahmen handelt es sich um kleine Teile eines Videos, die in der Regel mit einer Bearbeitung oder einem Schnitt im Video in Verbindung gebracht werden. Aufnahmen enthalten Start- und Endelemente sowie ein chapter_indicies-Element. Dieses Element gibt an, zu welchem größeren Abschnitt des Videos, einem sogenannten Kapitel, die Aufnahme gehört.

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Kapitel sind größere Teile eines Videos. Sie enthalten dann Start- und Endinformationen wie Aufnahmen und ein shot_indicies-Element. shot_indicies gibt an, welche Aufnahmen sich innerhalb eines Kapitels befinden. Schließlich bietet das Zusammenfassungselement eine generierte Zusammenfassung des Kapitelinhalts.

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

Die kleinste Granularität eines Videos ist ein Frame, der ein einzelnes Bild innerhalb eines Videos darstellt. Frames haben vor allem zwei Antwortelemente: content_moderation und text_words. Das erste, content_moderation, bietet Ihnen Informationen, die auf Kategorien der Inhaltsmoderation basieren, über den Inhalt des Frames, falls welche erkannt werden. Die zweite Option, text_words, bietet Ihnen eine Position und Informationen zu jedem Text, der in einem Video vorkommt, wie z. B. Untertitel.

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

Schließlich bietet die Statistik eine Aufschlüsselung der Informationen über die Erkennung, z. B. wie viele Aufnahmen, Sprecher und Kapitel sich in einem bestimmten Video befinden.