Videos - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Videos

BDA bietet eine Reihe von Standardausgaben zur Verarbeitung und Generierung von Erkenntnissen für Videos. Hier finden Sie einen detaillierten Überblick über die einzelnen Operationstypen:

Zusammenfassung des gesamten Videos

Die vollständige Videozusammenfassung generiert eine allgemeine Zusammenfassung des gesamten Videos. Diese fasst die wichtigsten Themen, Ereignisse und Informationen im Video kurz zusammen. Die vollständige Videozusammenfassung ist für Inhalte mit beschreibendem Text wie Produktübersichten, Schulungen, Nachrichten, Talkshows und Dokumentarfilme optimiert. BDA versucht in der Zusammenfassung des gesamten Videos und in den Szenenzusammenfassungen, jedem einzelnen Sprecher anhand von Audiosignalen (z. B. wenn sich ein Sprecher vorstellt) oder visuellen Signalen (z. B. eine Präsentationsfolie mit dem Namen eines Sprechers) einen Namen zuzuordnen. Wenn der Name eines Sprechers nicht eindeutig aufgelöst werden kann, wird er durch eine eindeutige Nummer dargestellt (z. B. speaker_0).

Kapitelzusammenfassungen

Die Zusammenfassung von Videokapiteln bietet beschreibende Zusammenfassungen für einzelne Szenen in einem Video. Ein Videokapitel ist eine Abfolge von Shots, die innerhalb des Videos eine kohärente Handlungs- oder Erzähleinheit bilden. Dieses Feature unterteilt das Video anhand von visuellen und akustischen Hinweisen in aussagekräftige Abschnitte, stellt Zeitstempel für diese Segmente bereit und fasst die einzelnen Abschnitte zusammen.

IAB-Taxonomie

Die Klassifikation des Interactive Advertising Bureau (IAB) wendet eine Standardtaxonomie für Werbung an, um Videoszenen auf der Grundlage von Bild- und Audioelementen zu klassifizieren. Für die Vorschauversion unterstützt BDA 24 Kategorien der obersten Ebene (L1) und 85 Kategorien der zweiten Ebene (L2). Um die Liste der von BDA unterstützten IAB-Kategorien herunterzuladen, klicken Sie hier.

Vollständiges Audio-Transkript

Das Feature für das vollständige Audio-Transkript bietet eine umfassende Textdarstellung der gesamten gesprochenen Inhalte in der Audiodatei. Dabei wird fortschrittliche Spracherkennungstechnologie verwendet, um Dialoge, gesprochenen Text und andere Audioelemente präzise zu transkribieren. Die Transkription beinhaltet eine Identifizierung des Sprechers, sodass bequem anhand des Sprechers in den Audioinhalten navigiert und gesucht werden kann.

Text im Video

Dieses Feature erkennt und extrahiert Text, der visuell im Video erscheint. Sie kann sowohl statischen Text (wie Titel oder Bildunterschriften) als auch dynamischen Text (z. B. bewegter Text in Grafiken) identifizieren. Ähnlich wie die Bildtexterkennung stellt sie Informationen zu Begrenzungsrahmen für jedes erkannte Textelement bereit und ermöglicht so eine präzise Lokalisierung innerhalb von Videoframes.

Logo-Erkennung

Dieses Feature identifiziert Logos in einem Video und stellt Informationen zu Begrenzungsrahmen bereit, die die Koordinaten der einzelnen erkannten Logos im Video-Frame sowie Konfidenzwerte angeben. Dieses Feature ist standardmäßig nicht aktiviert.

Inhaltsmoderation

Mit der Inhaltsmoderation werden unangemessene, unerwünschte oder anstößige Inhalte in einem Video erkannt. BDA unterstützt 7 Moderationskategorien: Explizit, nicht explizite Nacktheit intimer Bereiche und Küssen, Bademode oder Unterwäsche, Gewalt, Drogen und Tabak, Alkohol, Hasssymbole. Expliziter Text in Videos wird nicht gekennzeichnet.

Begrenzungsrahmen und die zugehörigen Konfidenzwerte können für relevante Features wie die Texterkennung zur Bereitstellung von Positionskoordinaten oder Zeitstempeln in der Videodatei aktiviert oder deaktiviert werden. Standardmäßig sind die Zusammenfassung des vollständigen Videos, die Szenenzusammenfassung und die Erkennung von Text im Video aktiviert.

Anmerkung

Pro Video wird nur eine Audiospur unterstützt. Untertitel-Dateiformate (z. B. SRT, VTT usw.) werden nicht unterstützt.

Standardausgabe für Videos

Im Folgenden sehen Sie ein Beispiel für eine Standardausgabe für ein Video, das mit BDA verarbeitet wurde:

{ "metadata": { "asset_id": "0", "semantic_modality": "VIDEO", "s3_bucket": "bedrock-data-automation-gamma-assets-us-east-1", "s3_key": "demo-assets/Video/MakingTheCut.mp4", "format": "QuickTime / MOV", "frame_rate": 30, "codec": "h264", "duration_millis": 378233, "frame_width": 852, "frame_height": 480 },

In diesem ersten Abschnitt werden Metadateninformationen zum Video bereitgestellt. Dazu gehören der Speicherort des Buckets, das Format, die Framerate und andere wichtige Informationen.

"shots": [ ... { "shot_index": 3, "start_timecode_smpte": "00:00:08:19", "end_timecode_smpte": "00:00:09:25", "start_timestamp_millis": 8633, "end_timestamp_millis": 9833, "start_frame_index": 259, "end_frame_index": 295, "duration_smpte": "00:00:01:06", "duration_millis": 1200, "duration_frames": 36, "confidence": 0.9956437242589935, "chapter_indices": [ 1 ] },

Dies ist ein Beispiel für ein Shot-Element in eine Antwort. Bei Shots handelt es sich um kleine Teile eines Videos, die in der Regel mit einer Bearbeitung oder einem Schnitt im Video zusammenhängen. Shots enthalten ein „start“- und „end“- sowie ein „chapter_indicies“-Element. Dieses Element gibt an, zu welchem größeren Abschnitt des Videos, einem sogenannten Kapitel, der Shot gehört.

"chapters": [ { "start_timecode_smpte": "00:00:00:00", "end_timecode_smpte": "00:00:08:18", "start_timestamp_millis": 0, "end_timestamp_millis": 8600, "start_frame_index": 0, "end_frame_index": 258, "duration_millis": 8600, "shot_indices": [ 0, 1, 2 ], "summary": "At an elegant outdoor venue, a man in a suit and a woman in a patterned dress stand on a raised platform overlooking a reflective pool. The setting is adorned with palm trees and lush greenery, creating a tropical atmosphere. The man initiates the event by asking if they should begin, to which the woman responds affirmatively. As the scene progresses, the focus shifts to a woman wearing a distinctive black and white patterned coat, her hair styled in a bun. She stands alone in a dimly lit room, facing away from the camera. The narrative then moves to a formal setting where a man in a dark suit stands before a curtain backdrop, suggesting he may be about to address an audience or perform. The scene concludes with a view of the entire venue, showcasing its tropical charm with a swimming pool surrounded by palm trees and decorative lighting, indicating it's prepared for a special occasion.",

Kapitel sind größere Teile eines Videos. Sie enthalten wie Shots Informationen zu Beginn und Ende und ein „shot_indicies“-Element. „shot_indicies“ gibt an, welche Shots sich in einem Kapitel befinden. Schließlich bietet das „summary“-Element eine generierte Zusammenfassung des Kapitelinhalts.

"frames": [... { "timecode_smpte": "00:00:03:15", "timestamp_millis": 3500, "frame_index": 105, "content_moderation": [], "text_words": [ { "id": "266db64a-a7dc-463c-b710-7a178a2cc4cc", "type": "TEXT_WORD", "confidence": 0.99844897, "text": "ANDREA", "locations": [ { "bounding_box": { "left": 0.1056338, "top": 0.7363281, "width": 0.19806337, "height": 0.068359375 }, "polygon": [ { "x": 0.1056338, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.7363281 }, { "x": 0.30369717, "y": 0.8046875 }, { "x": 0.1056338, "y": 0.8046875 } ] } ], "line_id": "57b760fc-c410-418e-aee3-7c7ba58a71c2" },

Die kleinste Granularität eines Videos ist ein Frame, der ein einzelnes Bild in einem Video darstellt. Frames haben zwei wichtige Antwortelemente: „content_moderation“ und „text_words“. Das erste, „content_moderation“, bietet auf Kategorien der Inhaltsmoderation basierende Informationen zum Inhalt des Frames, falls welche erkannt werden. Das zweite Element, „text_words“, gibt die Position und Informationen zu allem Text an, der in einem Video vorkommt, z. B. Untertitel.

"statistics": { "shot_count": 148, "chapter_count": 11, "speaker_count": 11 } }

Schließlich bieten die Statistiken eine Aufschlüsselung der Informationen zur Erkennung, z. B. wie viele Shots, Sprecher und Kapitel ein Video enthält.