View a markdown version of this page

Multimodales Verständnis - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Multimodales Verständnis

Amazon Nova 2 Lite kann mehrere Eingabemodalitäten verstehen. Dieses Modell ist mit Bildverarbeitungsfunktionen ausgestattet, die es ermöglichen, Bilder, Dokumente, Videos und Sprache zu verstehen und zu analysieren, um anhand der bereitgestellten Inhalte auf Fragen zu schließen und diese zu beantworten.

In diesem Abschnitt werden Richtlinien für die Arbeit mit Bildern, Dokumenten und Videos in Amazon Nova beschrieben, einschließlich der angewandten Vorverarbeitungsstrategien, Codebeispiele und relevanter Einschränkungen, die es zu berücksichtigen gilt.

Unterstützter Inhaltstyp nach Modalität

In den folgenden Informationen werden die von den einzelnen Mediendateitypen unterstützten Dateiformate und die akzeptierte Eingabemethode detailliert beschrieben.

Typ der Mediendatei Unterstützte Dateiformate Eingabemethode Größenbeschränkungen Anzahl der Objekte
Image

PNG, JPEG, GIF, WebP

Hinweis: Wenn Sie eine animierte GIF- oder WebP-Datei verwenden, wird nur der erste Frame verwendet.

Daten in die Anfrage einbetten

Wenn Sie die Converse-API verwenden, kodieren Sie Daten als Byte.

Wenn Sie die Invoke-API verwenden, kodieren Sie Daten als Base64-Zeichenfolge.

25 MB 5
Amazon-S3-URI Insgesamt 2 GB 1000
Video MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Daten in die Anfrage einbetten

Wenn Sie die Converse-API verwenden, kodieren Sie Daten als Byte.

Wenn Sie die Invoke-API verwenden, kodieren Sie Daten als Base64-Zeichenfolge.

25 MB 1
Amazon-S3-URI 1 GB 1

Bildverständnis

Bildverständnis bezieht sich auf die Fähigkeit von Amazon Nova, ein Bild zu verarbeiten und eine Vielzahl von Computer-Vision-Aufgaben auszuführen, wie z. B.:

  • Durchführung der Objekterkennung

  • Beantwortung von Fragen zu Bildern mithilfe von Visual Question Answering (VQA)

  • Bilder klassifizieren und zusammenfassen

  • Eine Bounding-Box-Erkennung wird durchgeführt

  • Optische Zeichenerkennung (OCR)

  • Zählung von Objekten

Bilder können als Eingabeaufforderung eingebunden werden, die als Byte-Arrays oder über eine S3-URI an die API übergeben wird.

Wichtige technische Informationen

Im Folgenden finden Sie wichtige technische Informationen, die Sie beachten sollten, wenn Sie mit dieser Funktion arbeiten.

Bildgröße und Neuskalierung

Amazon Nova skaliert Bilder automatisch neu, um Qualität und Leistung zu optimieren:

  • Ermittelt das Seitenverhältnis, das am nächsten kommt (z. B. 1:1, 1:2, 2:3 usw.)

  • Skaliert neu, sodass eine Seite ≥ 896 px oder der kürzeren Seite des Originalbilds entspricht — je nachdem, welche Seite größer ist

  • Behält das Seitenverhältnis bei

  • Unterstützt eine Auflösung von bis zu 8.000 × 8.000 px

Koordinaten des Bounding-Boxes:

  • Nützlich für Aufgaben wie das Identifizieren von Elementen in Screenshots oder das Grundieren von Bildern

  • Koordinaten können bei der Nachbearbeitung neu skaliert werden, sodass sie den Originalabmessungen des Bildes entsprechen

  • Gibt Begrenzungsrahmen auf einer Skala von [0, 1000] zurück.

Schätzung des Bild-Tokens

Amazon Nova konvertiert jedes Bild zur Verarbeitung in Token. Die Anzahl der Token hängt von der Auflösung und dem Seitenverhältnis des Bildes ab.

Im Folgenden finden Sie Beispiele für die ungefähre Token-Anzahl basierend auf der Bildauflösung:

Auflösung des Bildes Geschätzte Tokens
900 x 450 515
900 x 900 ~1.035
1 400 x 900 ~1.600
1800 x 900 ~2.060
1300 x 1300 ~2.155

Beispiele zum Verständnis von Bildern

Ein Beispiel für das direkte Einbetten von Bilddaten in die Anfrage finden Sie im Beispiel Multimodale Eingabe mit eingebettetem Asset — Converse API (kein Streaming) in der. Code-Bibliothek

Verwenden Sie Amazon S3, um große Bilddateien oder mehrere Bilddateien hochzuladen, bei denen die Gesamtnutzlast mehr als 25 MB beträgt. Ein vollständiges Beispiel für die Verwendung von Amazon S3 S3-URI-Referenzen für die Bildeingabe finden Sie im Beispiel Multimodale Eingabe mit S3-URI — Converse API (non-streaming) in der. Code-Bibliothek

Anmerkung

Wenn Sie S3 verwenden, stellen Sie sicher, dass der Amazon Bedrock-Service berechtigt ist, auf den Bucket und das Objekt zuzugreifen.

Wichtigste Einschränkungen

In der folgenden Liste werden die aktuellen Einschränkungen von Modellen zum Verständnis von Bildern beschrieben:

  • Verständnis mehrsprachiger Bilder: Die Modelle verstehen mehrsprachige Bilder und Videoframes nur begrenzt und können bei einfachen Aufgaben Probleme haben oder halluzinieren.

  • Identifizierung von Personen: Amazon Nova 2-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen.

  • Räumliches Denken: Die Modelle von Amazon Nova 2 verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die eine genaue Lokalisierungs- oder Layoutanalyse erfordern.

  • Kleiner Text in Bildern und Videos: Wenn der Text im Bild oder Video zu klein ist, sollten Sie erwägen, die relative Größe des Textes im Bild zu erhöhen, indem Sie den entsprechenden Abschnitt beschneiden und dabei den erforderlichen Kontext beibehalten.

Video-Verständnis

Videoverständnis bezieht sich auf die Fähigkeit von Amazon Nova, Videoeingänge zu verarbeiten und eine Reihe von Videoverständnisaufgaben auszuführen, wie z. B.:

  • Analyse von Schlüsselbildern und Zusammenfassung von Videoinhalten

  • Beantwortung von Fragen zu Videosegmenten (Beantwortung von Videofragen oder Video-QA)

  • Objekte über Frames hinweg erkennen und verfolgen

  • Identifizieren von Aktionen, Szenen und Ereignissen

  • Durchführung einer zeitlichen Segmentierung zur Lokalisierung bestimmter Momente

  • Generierung beschreibender Bildunterschriften oder Zusammenfassungen von Videosequenzen

Wichtige technische Informationen

Im Folgenden finden Sie wichtige technische Informationen, die Sie beachten sollten, wenn Sie mit dieser Funktion arbeiten.

Informationen zur Videogröße

Die Videoverständnisfunktionen von Amazon Nova unterstützen das Multi-Seitenverhältnis. Alle Videos werden verzerrt (nach oben oder unten, basierend auf dem ursprünglichen Seitenverhältnis) auf 672 × 672 Quadratabmessungen skaliert, bevor sie in das Modell eingegeben werden.

Das Modell verwendet eine dynamische Sampling-Strategie, die auf der Videolänge basiert. Für Videos mit einer Länge von 16 Minuten oder weniger tastet Amazon Nova 2 Lite 1 Bild pro Sekunde (FPS) ab. Bei Videos, die länger als 16 Minuten sind, verringert sich die Abtastrate, um einen gleichbleibenden Wert von 960 Bildern aufrechtzuerhalten, wobei die Frame-Abtastrate entsprechend variiert. Dieser Ansatz wurde entwickelt, um kürzere Videos im Vergleich zu längeren Videoinhalten genauer auf Szenenebene zu verstehen.

Wir empfehlen, die Videolänge bei niedriger Bewegung unter 1 Stunde und bei viel Bewegung unter 16 Minuten zu halten.

Bei der Analyse einer 4k-Version eines Videos und einer Full-HD-Version sollte kein Unterschied bestehen. Da die Abtastrate 1 FPS beträgt, sollte ein Video mit 60 Bildern pro Sekunde genauso gut funktionieren wie ein Video mit 30 Bildern pro Sekunde. Die Verwendung einer höheren Auflösung und einer höheren Bildrate als erforderlich ist nicht vorteilhaft, da die Videogröße auf 1 GB begrenzt ist. Dadurch wird die Videolänge begrenzt, die in diese Größenbeschränkung passt. Sie sollten also Videos, die länger als 1 GB sind, vorverarbeiten.

Video-Token

Die Länge des Videos ist der Hauptfaktor, der sich auf die Anzahl der generierten Token auswirkt. Um die ungefähren Kosten zu berechnen, multiplizieren Sie die geschätzte Anzahl der Video-Token mit dem Preis pro Token für das jeweils verwendete Modell.

Die folgende Tabelle enthält einige ungefähre Angaben zur Frame-Sampling und Token-Nutzung pro Videolänge für Amazon Nova 2 Lite:

Länge des Videos Bilder zum Ausprobieren Abtastrate pro Sekunde Ungefähre Tokens
10 Sekunden 10 1 2.880
30 Sekunden 30 1 8.640
16 Minuten 960 1 276.480
20 Minuten 1200 1 345.600
30 Minuten 1800 1 518.400
45 Minuten 2700 1 777.600

Beispiele zum Videoverständnis

Ein Beispiel dafür, wie Sie Videodaten direkt in die Anfrage einbetten können, finden Sie im Beispiel Multimodale Eingabe mit eingebettetem Asset — Converse API (kein Streaming) in der. Code-Bibliothek

Ein Beispiel für die Verwendung von S3-URI-Referenzen bei der Videoeingabe finden Sie im Beispiel Multimodale Eingabe mithilfe von S3-URI — Converse API (kein Streaming) in der. Code-Bibliothek

Wichtigste Einschränkungen

Im Folgenden sind die wichtigsten Einschränkungen des Modells aufgeführt, bei denen die Genauigkeit und Leistung des Modells möglicherweise nicht garantiert werden kann:

  • Keine Audiounterstützung: Die Amazon Nova-Modelle sind derzeit darauf trainiert, Videoinhalte ausschließlich auf der Grundlage der visuellen Frames zu verarbeiten und zu verstehen. Audiospuren in Videos werden nicht verarbeitet oder analysiert.

  • Verständnis mehrsprachiger Bilder: Die Amazon Nova-Modelle verstehen mehrsprachige Bilder und Videoframes nur begrenzt. Sie könnten bei einfachen Aufgaben Schwierigkeiten haben oder halluzinieren.

  • Identifizierung von Personen: Die Amazon-Nova-Modelle unterstützen nicht die Möglichkeit, Personen in Bildern, Dokumenten oder Videos zu identifizieren oder zu benennen. Die Modelle enthalten keine Namen oder Identitäten von Personen in visuellen Inhalten.

  • Kleiner Text in Videos: Wenn der Text im Bild oder Video zu klein ist, erwägen Sie, den Text im Video relativ zu vergrößern.

  • Räumliches Denken: Die Modelle von Amazon Nova 2 verfügen nur über begrenzte Fähigkeiten zum räumlichen Denken. Sie haben möglicherweise Probleme mit Aufgaben, die ein genaues Verständnis von Objektpositionen, Entfernungen oder räumlichen Beziehungen in Videos erfordern.

  • Unangemessene Inhalte: Die Amazon-Nova-Modelle verarbeiten keine unangemessenen oder expliziten Bilder, die gegen die Richtlinie zur zulässigen Nutzung verstoßen.

  • Anwendungen im Gesundheitswesen: Aufgrund der Sensibilität dieser Artefakte empfehlen wir nicht, sie zur Interpretation sensibler medizinischer Bilder oder Videos wie komplexe diagnostische Scans zu verwenden, obwohl Amazon Nova-Modelle allgemeine Analysen für einige Bilder oder Videos aus dem Gesundheitswesen ermöglichen könnten. Die Reaktion der Amazon Nova-Modelle sollte niemals als Ersatz für professionellen medizinischen Rat angesehen werden.

Verstehen von Dokumenten

Mit der Funktion zum Verstehen von Dokumenten von Amazon Nova können Sie ganze Dokumente (PDFs, Word-Dateien, Tabellen usw.) in Ihre Aufforderung einbeziehen. Auf diese Weise kann das Modell den Inhalt von Dokumenten analysieren, zusammenfassen, Informationen daraus extrahieren oder Fragen dazu beantworten.

Amazon Nova 2 Lite kann sowohl den Text als auch die visuellen Elemente (wie Diagramme oder Tabellen) in diesen Dokumenten interpretieren. Dies ermöglicht Anwendungsfälle wie die Beantwortung von Fragen, die Zusammenfassung und Analyse umfangreicher Berichte oder gescannter Dokumente.

Zu den wichtigsten Funktionen für das Verständnis von Dokumenten gehören ein sehr großes Kontextfenster (1 Million Token) für umfangreiche Dokumente und die Möglichkeit, mehrere Dokumente in einer Abfrage zu verarbeiten.

Unterstützte Modalitäten und Formate für Dokumente

Amazon Nova unterscheidet zwischen zwei Arten von Dokumenteneingaben:

  • Textbasierte Dokumente wie TXT-, CSV-, HTML-, Markdown- oder DOC-Dateien werden hauptsächlich aufgrund ihres Textinhalts verarbeitet. Amazon Nova versteht und extrahiert Informationen aus dem Text in diesen Dokumenten.

  • Medienbasierte Dokumente, wie PDF- oder DOCX-Dateien, können komplexe Layouts, Bilder, Diagramme oder eingebettete Grafiken enthalten. Bei medienbasierten Dokumenten verwendet Amazon Nova visuelles Verständnis, um visuelle Inhalte — wie Diagramme, Tabellen, Diagramme oder Screenshots — zusammen mit dem Text des Dokuments zu interpretieren.

Zu den unterstützten Dateiformaten gehören gängige Dokumenttypen wie:

  • Klartext- und strukturierte Textdateien: CSV, TXT

  • Tabellenkalkulationen: XLS, XLSX, HTML, Markdown

  • Standard-Bildformate (für Bilder in Dokumenten): PNG, JPG, GIF, WebP

  • Dokumentenformate: DOC, DOCX, PDF

  • PDFs die Bildkodierungen wie CMYK oder SVG enthalten, werden nicht unterstützt.

Größenbeschränkungen und Nutzungsrichtlinien für Dokumente

Einschränkung

Limit

Maximale Anzahl von Dokumenten

Bis zu 5 Dokumente pro Anfrage (gilt sowohl für den direkten Upload als auch für Amazon S3)

Textbasierte Dokumentengröße

Jedes Textdokument muss 4,5 MB oder weniger groß sein

Medienbasierte Dokumentgröße

Für PDF- und DOCX-Dateien gibt es keine individuelle Dateigrößenbeschränkung. Beim direkten Upload muss die Gesamtgröße aller Mediendokumente höchstens 25 MB betragen. Bei Verwendung von Amazon S3 muss die Gesamtgröße aller Mediendokumente kleiner oder gleich 2 GB sein.

PDF-Inhalte werden nicht unterstützt

PDFs die CMYK-Farbprofile oder SVG-Bilder enthalten, werden nicht unterstützt.

Preisgestaltung

Amazon Nova verwendet eine tokenbasierte Preisgestaltung: Sie zahlen für Eingabe-Token (alles, was Sie senden, einschließlich angehängter Dokumente) und Output-Token (die Antwort des Modells).

Schätzungstoken für PDFs: Gehen Sie bei der Planung von einer standardmäßigen 8,5 x 11 Zoll großen PDF-Seite ≈ 2.560 Eingabetoken aus (diese Schätzung bezieht sich sowohl auf Text- als auch auf visuelle Elemente auf einer typischen Seite).

Beispiele: Nutzung von Novas Document Understanding über API und S3

Ein Beispiel für die Verwendung per API finden Sie im Beispiel Multimodale Eingabe mit eingebettetem Asset — Converse API (kein Streaming) in der. Code-Bibliothek

Ein Beispiel für die Verwendung über S3 finden Sie im Beispiel Multimodale Eingabe mithilfe von S3-URI — Converse API (kein Streaming) in der. Code-Bibliothek