Video-Verständnis - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Video-Verständnis

Anmerkung

Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2-Videos finden Sie unter Video Understanding.

Mit den Amazon-Nova-Modellen können Sie ein einzelnes Video in die Nutzdaten einbinden, das entweder im Base64-Format oder über eine Amazon-S3-URI bereitgestellt werden kann. Bei Verwendung der Base64-Methode darf die Gesamtgröße der Nutzdaten 25 MB nicht überschreiten. Sie können jedoch ein Amazon-S3-URI für Videoinhalte angeben. Mit diesem Ansatz können Sie das Modell für längere Videos (mit einer Größe von bis zu 1 GB) nutzen, ohne durch die Beschränkung der Gesamtnutzdatengröße eingeschränkt zu sein. Amazon-Nova-Modelle können das übermittelte Video analysieren und Fragen beantworten, ein Video klassifizieren und Informationen im Video anhand der bereitgestellten Anweisungen zusammenfassen.

Mediendateityp

Unterstützte Datei-Formate

Eingabemethode

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Empfohlen für eine Nutzdatengröße von weniger als 25 MB

Amazon-S3-URI

Empfohlen für Nutzdaten von mehr als 25 MB bis zu 2 GB. Einzelne Dateien müssen 1 GB oder kleiner sein.

Es gibt keine Unterschiede in der Anzahl der Videoeingabe-Token, unabhängig davon, ob das Video als base64 (sofern es innerhalb der Größeneinschränkungen liegt) oder über einen Amazon-S3-Speicherort übermittelt wird.

Beachten Sie, dass für das 3GP-Dateiformat das in der API-Anfrage übergebene Feld „format“ das Format „three_gp“ haben sollte.

Bei der Verwendung von Amazon S3 stellen Sie sicher, dass Sie die Metadaten „Content-Type” auf den korrekten MIME-Typ für das Video einstellen.

Informationen zur Videogröße

Die Videoanalysefunktionen von Amazon Nova unterstützen mehrere Seitenverhältnisse. Alle Videos werden mit Verzerrung (je nach Eingabe nach oben oder unten) auf eine quadratische Größe von 672 × 672 Pixel skaliert, bevor sie an das Modell weitergeleitet werden. Das Modell verwendet eine dynamische Sampling-Strategie, die auf der Länge des Videos basiert. Für Amazon Nova Lite und Amazon Nova Pro wird bei Videos mit einer Länge von maximal 16 Minuten eine Abtastrate von 1 Bild pro Sekunde (FPS) verwendet. Bei Videos mit einer Länge von mehr als 16 Minuten wird jedoch die Abtastrate verringert, um eine konstante Abtastrate von 960 Bildern zu gewährleisten, wobei sich die Bildabtastrate entsprechend ändert. Dieser Ansatz wurde entwickelt, um kürzere Videos im Vergleich zu längeren Videoinhalten genauer auf Szenenebene zu verstehen. Wir empfehlen, die Videolänge bei wenig Bewegung auf weniger als 1 Stunde und bei mehr Bewegung auf weniger als 16 Minuten zu beschränken. Für Amazon Nova Premier wird die Samplingrate von 1 FPS bis zu einem Limit von 3 200 Frames angewendet.

Bei der Analyse einer 4k-Version eines Videos und einer Full-HD-Version sollte kein Unterschied bestehen. Ebenso sollte ein Video mit 60 FPS aufgrund der Samplingrate von maximal 1 FPS die gleiche Leistung wie ein Video mit 30 FPS erbringen. Aufgrund der maximalen Videogröße von 1 GB ist die Verwendung einer höheren Auflösung und Bildfrequenz als erforderlich nicht vorteilhaft und schränkt die Videolänge ein, die in diese Größenbeschränkung passt. Es kann sinnvoll sein Videos, die größer als 1 GB sind, vorab zu verarbeiten.

Video-Token

Die Länge des Videos ist der Hauptfaktor, welcher die Anzahl der generierten Token beeinflusst. Um die ungefähren Kosten zu berechnen, sollten Sie die geschätzte Anzahl der Videotoken mit dem Preis pro Token des verwendeten Modells multiplizieren.

Die folgende Tabelle enthält einige Näherungswerte für das Frame-Sampling und die Token-Nutzung pro Videolänge für Amazon Nova Pro, Lite und Micro:

video_duration

10 Sek

30 Sek

16 Minuten

20 Minuten

30 Minuten

45 Minuten

1 Std

1,5 Std.

frames_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0,755

0.5

0,35556

0,14

0,096

Geschätzte Token-Anzahl

2.880

8.640

276.480

276.480

276.480

276.480

276.480

276.480

Die folgende Tabelle enthält einige Näherungswerte für das Frame-Sampling und die Token-Nutzung pro Videolänge für Amazon Nova Premier:

video_duration

10 Sek

30 Sek

16 Minuten

20 Minuten

30 Minuten

45 Minuten

1 Std

1,5 Std.

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Geschätzte Token-Anzahl

2.880

8.640

276.480

345.600

518.400

777.600

Die folgende Tabelle enthält einige ungefähre Angaben zur Frame-Sampling und Token-Nutzung pro Videolänge für Amazon Nova Lite 1.5

video_duration

10 Sek

30 Sek

16 Minuten

20 Minuten

30 Minuten

45 Minuten

1 Std

1,5 Std.

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Geschätzte Token-Anzahl

2.880

8.640

276.480

345.600

518.400

777.600