Lange und bewegungsintensive Videos Latenz

Bewährte Methoden zu visuellen Verständnis-Prompts

Anmerkung

Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Informationen dazu, wie Sie in Amazon Nova 2 zu multimodalem Verständnis beitragen können, finden Sie unter Multimodale Eingaben veranlassen.

Die Modellfamilie Amazon Nova verfügt über neuartige Bildverarbeitungsfunktionen, die es dem Modell ermöglichen, Bilder und Videos zu verstehen und zu analysieren, wodurch sich spannende Möglichkeiten für multimodale Interaktionen eröffnen. In den folgenden Abschnitten werden Richtlinien für die Arbeit mit Bildern und Videos in Amazon Nova beschrieben. Dazu gehören bewährte Methoden, Codebeispiele und relevante Einschränkungen, die zu berücksichtigen sind.

Je höher die Qualität der von Ihnen bereitgestellten Bilder oder Videos ist, desto größer ist die Wahrscheinlichkeit, dass die Modelle die Informationen in der Mediendatei korrekt verstehen. Achten Sie darauf, dass die Bilder oder Videos klar und frei von übermäßiger Unschärfe oder Pixelierung sind, um genauere Ergebnisse zu gewährleisten. Sollten das Bild oder die Videoframes wichtige Textinformationen enthalten, vergewissern Sie sich bitte, dass der Text lesbar und nicht zu klein ist. Achten Sie darauf, wichtige visuelle Elemente nicht zu beseitigen, nur um den Text zu vergrößern.

Mit Amazon-Nova-Modellen können Sie ein einzelnes Video in die Nutzdaten einbinden, das entweder im Base64-Format oder über eine Amazon-S3-URI bereitgestellt werden kann. Bei Verwendung der Base64-Methode darf die Gesamtgröße der Nutzdaten nicht größer als 25 MB sein. Sie können jedoch ein Amazon-S3-URI für Bild-, Video- und Dokumentinhalte angeben. Durch die Verwendung von Amazon S3 können Sie das Modell für größere Dateien und mehrere Mediendateien nutzen, ohne durch die Beschränkung der Gesamtnutzdatengröße eingeschränkt zu sein. Amazon Nova kann das Eingabevideo analysieren und Fragen beantworten, ein Video klassifizieren und Informationen im Video anhand der bereitgestellten Anweisungen zusammenfassen.

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen. Die Nutzdaten dürfen insgesamt nicht größer als 25 MB sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, ein Bild klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.

Bildinformationen
Mediendateityp	Unterstützte Datei-Formate	Eingabemethode
Image	PNG, JPG, JPEG, GIF, WebP	Base64- und Amazon-S3-URI

Videoinformationen
Format	MIME-Typ	Videokodierung
MKV	video/x-matroska	H.264
MOV	video/quicktime	H.264 H.265 ProRES
MP4	video/mp4	DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Part 2 VP9
WEBM	Video/Webm	VP8 VP9
FLV	video/x-flv	FLV1
MPEG	Video/MPEG	MPEG-1
MPG	Video/MPG	MPEG-1
WMV	Video/WMV	MSMPEG4v3 (MP43)
3GPP	Video/3gpp	H.264

Es gibt keine Unterschiede in der Anzahl der Videoeingabe-Token, unabhängig davon, ob das Video als base64 (sofern es innerhalb der Größeneinschränkungen liegt) oder über einen Amazon-S3-Speicherort übermittelt wird.

Beachten Sie, dass für das 3gp-Dateiformat das in der API-Anfrage übergebene Feld „format“ das Format „three_gp“ haben sollte.

Bei der Verwendung von Amazon S3 sollten Sie sicherstellen, dass Ihre „Content-Type”-Metadaten auf den korrekten MIME-Typ für das Video eingestellt sind.

Themen

Lange und bewegungsintensive Videos

Das Modell führt die Videoanalyse durch, indem es Videobilder mit einer Basisrate von 1 Bild pro Sekunde (FPS) abtastet. Es handelt sich um eine Abwägung zwischen der Erfassung von Details im Video und dem Verbrauch von Input-Token, was sich auf die Kosten, die Latenz und die maximale Videolänge auswirkt. Während eine Abtastung von einem Ereignis pro Sekunde für allgemeine Anwendungsfälle ausreichend sein sollte, kann es bei einigen Anwendungsfällen mit Videos mit vielen Bewegungen, wie beispielsweise Sportvideos, zu Leistungseinbußen kommen.

Um längere Videos verarbeiten zu können, wird die Abtastrate bei Videos, die länger als 16 Minuten sind, auf einen festen Wert von 960 Bildern reduziert, die über die gesamte Länge des Videos verteilt sind, sowohl für Amazon Nova Lite als auch für Amazon Nova Pro. Dies bedeutet, dass bei einer Videolänge von mehr als 16 Minuten die Bildfrequenz sinkt und weniger Details erfasst werden. Dies ermöglicht Anwendungsfälle wie die Zusammenfassung längerer Videos, verschärft jedoch Probleme bei Videos mit vielen Bewegungen, bei denen Details wichtig sind. Für Amazon Nova Premier wird die Samplingrate von 1 FPS bis zu einem Limit von 3 200 Frames angewendet.

In vielen Fällen können Sie bei längeren Videos eine Abtastrate von 1 FPS erzielen, indem Sie Vorverarbeitungsschritte und mehrere Aufrufe verwenden. Das Video kann in kleinere Segmente unterteilt werden, die dann jeweils mit den Multi-Modell-Funktionen des Modells analysiert werden. Die Antworten werden aggregiert und in einem letzten Schritt text-to-text wird eine endgültige Antwort generiert. Beachten Sie, dass es zu Kontextverlusten kommen kann, wenn die Videos auf diese Weise segmentiert werden. Dies ist vergleichbar mit den Kompromissen beim Chunking für RAG-Anwendungsfälle, und viele der gleichen Abhilfemaßnahmen lassen sich gut übertragen, wie z. B. gleitendes Fenster.

Bitte beachten Sie, dass die Segmentierung des Videos ebenfalls die Latenz verringern kann, da die Analyse parallel durchgeführt wird, jedoch kann dies zu einer erheblichen Zunahme der Eingabetoken führen, was sich auf die Kosten auswirkt.

Latenz

Videos können umfangreich sein. Obwohl wir die Möglichkeit bieten, Dateien mit einer Größe von bis zu 1 GB durch Hochladen auf Amazon S3 zu verarbeiten, wodurch die Aufruf-Nutzdaten verschlankt werden, müssen die Modelle dennoch eine potenziell große Anzahl von Token verarbeiten. Wenn Sie synchrone Amazon Bedrock -Aufrufe wie „Invoke“ oder „Converse“ verwenden, stellen Sie bitte sicher, dass Ihr SDK mit einer angemessenen Zeitüberschreitung konfiguriert ist.

Unabhängig davon ist die Amazon-S3-URI die bevorzugte Methode, wenn Latenz eine Rolle spielt. Die Segmentierung von Videos, wie im vorherigen Abschnitt beschrieben, ist eine weitere Strategie. Die Vorverarbeitung von Videos mit hoher Auflösung und hoher Bildfrequenz kann ebenfalls Bandbreite und Rechenleistung auf der Serviceseite einsparen und somit die Latenz verringern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fehlerbehebung für Toolaufrufe

Prompt-Ansätze zum visuellen Verständnis