Bewährte Methoden zu visuellen Verständnis-Prompts - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bewährte Methoden zu visuellen Verständnis-Prompts

Anmerkung

Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Informationen dazu, wie Sie in Amazon Nova 2 zu multimodalem Verständnis beitragen können, finden Sie unter Multimodale Eingaben veranlassen.

Die Modellfamilie Amazon Nova verfügt über neuartige Bildverarbeitungsfunktionen, die es dem Modell ermöglichen, Bilder und Videos zu verstehen und zu analysieren, wodurch sich spannende Möglichkeiten für multimodale Interaktionen eröffnen. In den folgenden Abschnitten werden Richtlinien für die Arbeit mit Bildern und Videos in Amazon Nova beschrieben. Dazu gehören bewährte Methoden, Codebeispiele und relevante Einschränkungen, die zu berücksichtigen sind.

Je höher die Qualität der von Ihnen bereitgestellten Bilder oder Videos ist, desto größer ist die Wahrscheinlichkeit, dass die Modelle die Informationen in der Mediendatei korrekt verstehen. Achten Sie darauf, dass die Bilder oder Videos klar und frei von übermäßiger Unschärfe oder Pixelierung sind, um genauere Ergebnisse zu gewährleisten. Sollten das Bild oder die Videoframes wichtige Textinformationen enthalten, vergewissern Sie sich bitte, dass der Text lesbar und nicht zu klein ist. Achten Sie darauf, wichtige visuelle Elemente nicht zu beseitigen, nur um den Text zu vergrößern.

Mit Amazon-Nova-Modellen können Sie ein einzelnes Video in die Nutzdaten einbinden, das entweder im Base64-Format oder über eine Amazon-S3-URI bereitgestellt werden kann. Bei Verwendung der Base64-Methode darf die Gesamtgröße der Nutzdaten nicht größer als 25 MB sein. Sie können jedoch ein Amazon-S3-URI für Bild-, Video- und Dokumentinhalte angeben. Durch die Verwendung von Amazon S3 können Sie das Modell für größere Dateien und mehrere Mediendateien nutzen, ohne durch die Beschränkung der Gesamtnutzdatengröße eingeschränkt zu sein. Amazon Nova kann das Eingabevideo analysieren und Fragen beantworten, ein Video klassifizieren und Informationen im Video anhand der bereitgestellten Anweisungen zusammenfassen.

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen. Die Nutzdaten dürfen insgesamt nicht größer als 25 MB sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, ein Bild klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.

Bildinformationen

Mediendateityp

Unterstützte Datei-Formate

Eingabemethode

Image

PNG, JPG, JPEG, GIF, WebP

Base64- und Amazon-S3-URI

Videoinformationen

Format

MIME-Typ

Videokodierung

MKV

video/x-matroska

H.264

MOV

video/quicktime

H.264

H.265

ProRES

MP4

video/mp4

DIVX/XVID

H.264

H.265

J2K () JPEG2000

MPEG-2

MPEG-4 Part 2

VP9

WEBM

Video/Webm

VP8

VP9

FLV

video/x-flv

FLV1

MPEG

Video/MPEG

MPEG-1

MPG

Video/MPG

MPEG-1

WMV

Video/WMV

MSMPEG4v3 (MP43)

3GPP

Video/3gpp

H.264

Es gibt keine Unterschiede in der Anzahl der Videoeingabe-Token, unabhängig davon, ob das Video als base64 (sofern es innerhalb der Größeneinschränkungen liegt) oder über einen Amazon-S3-Speicherort übermittelt wird.

Beachten Sie, dass für das 3gp-Dateiformat das in der API-Anfrage übergebene Feld „format“ das Format „three_gp“ haben sollte.

Bei der Verwendung von Amazon S3 sollten Sie sicherstellen, dass Ihre „Content-Type”-Metadaten auf den korrekten MIME-Typ für das Video eingestellt sind.

Lange und bewegungsintensive Videos

Das Modell führt die Videoanalyse durch, indem es Videobilder mit einer Basisrate von 1 Bild pro Sekunde (FPS) abtastet. Es handelt sich um eine Abwägung zwischen der Erfassung von Details im Video und dem Verbrauch von Input-Token, was sich auf die Kosten, die Latenz und die maximale Videolänge auswirkt. Während eine Abtastung von einem Ereignis pro Sekunde für allgemeine Anwendungsfälle ausreichend sein sollte, kann es bei einigen Anwendungsfällen mit Videos mit vielen Bewegungen, wie beispielsweise Sportvideos, zu Leistungseinbußen kommen.

Um längere Videos verarbeiten zu können, wird die Abtastrate bei Videos, die länger als 16 Minuten sind, auf einen festen Wert von 960 Bildern reduziert, die über die gesamte Länge des Videos verteilt sind, sowohl für Amazon Nova Lite als auch für Amazon Nova Pro. Dies bedeutet, dass bei einer Videolänge von mehr als 16 Minuten die Bildfrequenz sinkt und weniger Details erfasst werden. Dies ermöglicht Anwendungsfälle wie die Zusammenfassung längerer Videos, verschärft jedoch Probleme bei Videos mit vielen Bewegungen, bei denen Details wichtig sind. Für Amazon Nova Premier wird die Samplingrate von 1 FPS bis zu einem Limit von 3 200 Frames angewendet.

In vielen Fällen können Sie bei längeren Videos eine Abtastrate von 1 FPS erzielen, indem Sie Vorverarbeitungsschritte und mehrere Aufrufe verwenden. Das Video kann in kleinere Segmente unterteilt werden, die dann jeweils mit den Multi-Modell-Funktionen des Modells analysiert werden. Die Antworten werden aggregiert und in einem letzten Schritt text-to-text wird eine endgültige Antwort generiert. Beachten Sie, dass es zu Kontextverlusten kommen kann, wenn die Videos auf diese Weise segmentiert werden. Dies ist vergleichbar mit den Kompromissen beim Chunking für RAG-Anwendungsfälle, und viele der gleichen Abhilfemaßnahmen lassen sich gut übertragen, wie z. B. gleitendes Fenster.

Bitte beachten Sie, dass die Segmentierung des Videos ebenfalls die Latenz verringern kann, da die Analyse parallel durchgeführt wird, jedoch kann dies zu einer erheblichen Zunahme der Eingabetoken führen, was sich auf die Kosten auswirkt.

Latenz

Videos können umfangreich sein. Obwohl wir die Möglichkeit bieten, Dateien mit einer Größe von bis zu 1 GB durch Hochladen auf Amazon S3 zu verarbeiten, wodurch die Aufruf-Nutzdaten verschlankt werden, müssen die Modelle dennoch eine potenziell große Anzahl von Token verarbeiten. Wenn Sie synchrone Amazon Bedrock -Aufrufe wie „Invoke“ oder „Converse“ verwenden, stellen Sie bitte sicher, dass Ihr SDK mit einer angemessenen Zeitüberschreitung konfiguriert ist.

Unabhängig davon ist die Amazon-S3-URI die bevorzugte Methode, wenn Latenz eine Rolle spielt. Die Segmentierung von Videos, wie im vorherigen Abschnitt beschrieben, ist eine weitere Strategie. Die Vorverarbeitung von Videos mit hoher Auflösung und hoher Bildfrequenz kann ebenfalls Bandbreite und Rechenleistung auf der Serviceseite einsparen und somit die Latenz verringern.