Bildverständnis - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bildverständnis

Anmerkung

Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Den Leitfaden zum Verständnis von Amazon Nova 2 finden Sie unter Image Understanding.

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen, wobei die Gesamtnutzdaten auf 25 MB begrenzt ist. Sie können jedoch eine Amazon-S3-URI angeben, die Ihre Bilder für die Bildverarbeitung enthält. Mit diesem Ansatz können Sie das Modell für größere und weitere Bilder nutzen, ohne durch die Beschränkung auf Nutzdaten von 25 MB eingeschränkt zu sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, Bilder klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.

Informationen zur Bildgröße

Um optimale Ergebnisse zu erzielen, skaliert Amazon Nova die Eingabebilder automatisch entsprechend ihrem Seitenverhältnis und ihrer ursprünglichen Auflösung nach oben oder unten. Für jedes Bild ermittelt Amazon Nova zunächst das nächstgelegene Seitenverhältnis von 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 2:3, 2:4 und deren Transponierungen. Anschließend wird das Bild so skaliert, dass mindestens eine Seite des Bildes größer als 896 Pixel oder die Länge der kürzeren Seite des Originalbildes ist, wobei das Seitenverhältnis so weit wie möglich beibehalten wird. Es gibt eine maximale Auflösung von 8 000 x 8 000 Pixeln

Begrenzungsrahmenerkennung

Die Modelle Amazon Nova Lite und Amazon Nova Pro sind darauf trainiert, Begrenzungsrahmen in Bildern präzise zu erkennen. Diese Funktion ist besonders nützlich, wenn es darum geht, die Koordinaten eines bestimmten Zielobjekts zu ermitteln. Die Funktion zur Erkennung von Begrenzungsrahmen des Amazon-Nova-Modells ermöglicht dessen Einsatz für bildbasierte Grounding-Aufgaben und trägt somit zu einem besseren Verständnis von Screenshots bei. Das Amazon-Nova-Modell gibt Begrenzungsrahmen auf einer Skala von [0, 1000) aus. Nachdem diese Koordinaten ermittelt wurden, können sie als Nachbearbeitungsschritt entsprechend den Bildabmessungen in der Größe angepasst werden.

Konvertierung von Bildern in Token

Wie bereits erwähnt, wird die Größe von Bildern geändert, um die Informationsextraktion zu maximieren und gleichzeitig das Seitenverhältnis beizubehalten. Im Folgenden finden Sie einige Beispiele für Beispielabmessungen von Bildern und ungefähre Token-Berechnungen.

image_resolution (HxB oder BxH)

900 x 450

900 x 900

1 400 x 900

1 800 x 900

1 300 x 1 300

Geschätzte Token-Anzahl

~800

~1 300

~1 800

~2 400

~2 600

Ein Beispiel wäre ein Bild mit einer Größe von 800 x 400 Pixeln, für das Sie die Anzahl der Token schätzen möchten. Aufgrund der Abmessungen beträgt die nächstgelegene Auflösung 900 x 450, um ein Seitenverhältnis von 1:2 beizubehalten. Daher liegt die ungefähre Token-Anzahl für dieses Bild bei etwa 800 Token.