Techniken zum Sehen, Verstehen und Anregen - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Techniken zum Sehen, Verstehen und Anregen

Die folgenden Techniken zur visuellen Eingabeaufforderung helfen Ihnen dabei, bessere Aufforderungen für Amazon Nova zu erstellen.

Die Platzierung ist wichtig

Wir empfehlen, dass Sie Mediendateien (wie Bilder oder Videos) platzieren, bevor Sie Dokumente hinzufügen, gefolgt von Ihrem Anleitungstext oder Anweisungen zur Anleitung des Modells. Bilder, die nach dem Text platziert oder von Text durchsetzt sind, funktionieren zwar immer noch ausreichend, wenn es der Anwendungsfall zulässt, ist jedoch die Struktur {media_file} -then- {text} der bevorzugte Ansatz.

Die folgende Vorlage kann verwendet werden, um Mediendateien bei der visuellen Erfassung vor Text zu platzieren.

{ "role": "user", "content": [ { "image": "..." }, { "video": "..." }, { "document": "..." }, { "text": "..." } ] }

Es folgte kein strukturiertes

Optimierte Aufforderung

Benutzer

Erklären Sie, was auf dem Bild [Image1.png] passiert

[Image1.png]

Erklären Sie, was auf dem Bild passiert?

Mehrere Mediendateien mit Bildverarbeitungskomponenten

In Situationen, in denen Sie mehrere Mediendateien abwechselnd bereitstellen, versehen Sie jedes Bild mit einer nummerierten Bezeichnung. Wenn Sie beispielsweise zwei Bilder verwenden, beschriften Sie sie mit Image 1: undImage 2:. Wenn Sie drei Videos verwenden, beschriften Sie sie mit Video 1: Video 2:, undVideo 3:. Sie benötigen keine Zeilenumbrüche zwischen Bildern oder zwischen Bildern und der Aufforderung.

Die folgende Vorlage kann verwendet werden, um mehrere Mediendateien zu platzieren:

messages = [ { "role": "user", "content": [ {"text":"Image 1:"}, {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}}, {"text":"Image 2:"}, {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}}, {"text":"Image 3:"}, {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}}, {"text":"Image 4:"}, {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}}, {"text":"Image 5:"}, {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}}, {"text":user_prompt}, ], } ]

Nicht optimierte Eingabeaufforderung

Optimierte Aufforderung

Beschreiben Sie, was Sie auf dem zweiten Bild sehen.

[Image1.png] [Image2.png]

[Image1.png]

[Image2.png]

Beschreiben Sie, was Sie auf dem zweiten Bild sehen.

Ist das zweite Bild im beigefügten Dokument beschrieben?

[Image1.png] [Image2.png] [Document1.pdf]

[Image1.png]

[Image2.png]

[Document1.pdf]

Ist das zweite Bild im beigefügten Dokument beschrieben?

Aufgrund der langen Kontext-Token der Mediendateitypen kann es vorkommen, dass die am Anfang der Aufforderung angegebene Systemaufforderung in bestimmten Fällen nicht beachtet wird. In diesem Fall empfehlen wir, dass Sie alle Systemanweisungen nacheinander vom Benutzer ausführen und den allgemeinen Anweisungen von {media_file} -then- {text} folgen. Dies hat keine Auswirkungen auf die Systemabfrage mit RAG, Agenten oder die Verwendung von Tools.

Verwenden Sie die Benutzeranweisungen für eine bessere Befolgung der Anweisungen bei Aufgaben zum Verständnis des Sehvermögens

Für das Verständnis von Videos sind die Empfehlungen aufgrund der Anzahl der Token im Kontext Die Platzierung ist wichtig sehr wichtig. Verwenden Sie die Systemaufforderung für allgemeinere Dinge wie Ton und Stil. Wir empfehlen, die Videoanweisungen als Teil der Benutzeraufforderung beizubehalten, um die Leistung zu verbessern.

Die folgende Vorlage kann für verbesserte Anweisungen verwendet werden:

{ "role": "user", "content": [ { "video": { "format": "mp4", "source": { ... } } }, { "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..." } ] }

Genau wie bei Text empfehlen wir, Bilder und Videos zu chain-of-thought beantragen, um bessere Leistungen zu erzielen. Wir haben außerdem empfohlen, die chain-of-thought Anweisungen in der Systemaufforderung zu platzieren und andere Anweisungen in der Benutzereingabeaufforderung beizubehalten.

Wichtig

Das Amazon Nova Premier-Modell ist ein Modell mit höherer Intelligenz in der Amazon Nova-Familie, das komplexere Aufgaben bewältigen kann. Wenn Ihre Aufgaben fortgeschrittenes chain-of-thought Denken erfordern, empfehlen wir Ihnen, die unter Geben Sie Amazon Nova Zeit zum Nachdenken (chain-of-thought) bereitgestellte Vorlage für Eingabeaufforderungen zu verwenden. Dieser Ansatz kann dazu beitragen, die Analyse- und Problemlösungsfähigkeiten des Modells zu verbessern.

Wenige gedrehte Exemplare

Genau wie bei Textmodellen empfehlen wir, dass Sie Beispiele für Bilder angeben, um das Verständnis von Bildern zu verbessern (Videobeispiele können aufgrund der single-video-per-inference Einschränkung nicht bereitgestellt werden). Wir empfehlen, dass Sie die Beispiele in der Benutzereingabeaufforderung nach der Mediendatei platzieren, anstatt sie in der Systemaufforderung anzugeben.

0-Shot 2-Schuss
Benutzer [Bild 1]
Assistent Die Beschreibung von Bild 1
Benutzer [Bild 2]
Assistent Die Beschreibung von Bild 2
Benutzer

[Bild 3]

Erklären Sie, was auf dem Bild passiert

[Bild 3]

Erklären Sie, was auf dem Bild passiert

Erkennung von Begrenzungsfeldern

Wenn Sie Bounding-Box-Koordinaten für ein Objekt identifizieren müssen, können Sie das Amazon Nova-Modell verwenden, um Begrenzungsrahmen auf einer Skala von [0, 1000) auszugeben. Nachdem Sie diese Koordinaten erhalten haben, können Sie sie als Nachbearbeitungsschritt auf der Grundlage der Bildabmessungen skalieren. Ausführlichere Informationen zur Durchführung dieses Nachbearbeitungsschritts finden Sie im Amazon Nova Image Grounding-Notizbuch.

Im Folgenden finden Sie ein Beispiel für eine Eingabeaufforderung für die Erkennung von Begrenzungsfeldern:

Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format. Output example: [ {"{item_name}": [x1, y1, x2, y2]}, ... ] Result:

Reichhaltigere Ausgaben oder Stil

Die Ausgabe zum Verstehen von Videos kann sehr kurz sein. Wenn Sie längere Ausgaben wünschen, empfehlen wir, eine Persona für das Modell zu erstellen. Sie können diese Persona anweisen, auf die von Ihnen gewünschte Weise zu antworten, ähnlich wie bei der Verwendung der Systemrolle.

Weitere Änderungen der Antworten können mit One-Shot- und Few-Shot-Techniken erreicht werden. Geben Sie Beispiele dafür, wie eine gute Antwort aussehen sollte, und das Modell kann Aspekte davon nachahmen und gleichzeitig Antworten generieren.

Extrahieren Sie den Inhalt des Dokuments in Markdown

Amazon Nova Premier bietet erweiterte Funktionen zum Verständnis von in Dokumenten eingebetteten Diagrammen sowie zum Lesen und Verstehen von Inhalten aus komplexen Bereichen wie wissenschaftlichen Arbeiten. Darüber hinaus zeigt Amazon Nova Premier eine verbesserte Leistung beim Extrahieren von Dokumentinhalten und kann diese Informationen in den Formaten Markdown-Tabelle und LaTeX ausgeben.

Das folgende Beispiel stellt eine Tabelle in einem Bild zusammen mit einer Aufforderung zur Konvertierung des Bildinhalts in eine Markdown-Tabelle durch Amazon Nova Premier bereit. Nachdem der Markdown (oder die Latex-Repräsentation) erstellt wurde, können Sie Tools verwenden, um den Inhalt in JSON oder eine andere strukturierte Ausgabe zu konvertieren.

Make a table representation in Markdown of the image provided.
Eine Datentabelle, die als Bild statt als Dokument bereitgestellt wird

Hier ist die vom Modell bereitgestellte Ausgabe:

| No. | DATE | DESCRIPTION | AMOUNT | |-----|------------|-------------|--------| | 1 | 2021-04-19 | Guest room | $180 | | 2 | 2021-04-19 | Breakfast | $30 | | 3 | 2021-04-20 | Guest room | $180 | | 4 | 2021-04-20 | Laundry | $15 | | 5 | 2021-04-20 | Dinner | $70 | | 6 | 2021-04-20 | Breakfast | $30 | | 7 | 2021-04-21 | Guest room | $180 | | 8 | 2021-04-21 | Breakfast | $30 | | 9 | 2021-04-21 | Dinner | $70 | | 10 | 2021-04-21 | Laundry | $15 | | | | Subtotal | $800 | | | | Discounts | $24 | | | | Taxes | $68.9 | | | | Total | $844.9 |

Diese Ausgabe verwendet eine benutzerdefinierte Tabellennotation, wobei sie || als Spaltentrennzeichen und als Zeilentrennzeichen verwendet && wird.

Einstellungen von Inferenzparametern für das Verständnis des Sehvermögens

Für Anwendungsfälle zum Verständnis des Sehvermögens empfehlen wir, dass Sie mit den Inferenzparametern beginnen, die auf temperature eingestellt sind 0 und auf topK eingestellt sind. 1 Nachdem Sie die Ausgabe des Modells beobachtet haben, können Sie die Inferenzparameter dann je nach Anwendungsfall anpassen. Diese Werte hängen in der Regel von der Aufgabe und der benötigten Varianz ab. Erhöhen Sie die Temperatureinstellung, um mehr Variationen in den Antworten zu erzielen.

Videoklassifizierung

Um Videoinhalte effektiv in geeignete Kategorien zu sortieren, geben Sie Kategorien an, die das Modell zur Klassifizierung verwenden kann. Betrachten Sie die folgende Beispielaufforderung:

[Video] Which category would best fit this video? Choose an option from the list below: \Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
Videos taggen

Amazon Nova Premier bietet verbesserte Funktionen zum Erstellen von Video-Tags. Die besten Ergebnisse erzielen Sie, wenn Sie die folgende Anweisung verwenden, um durch Kommas getrennte Tags anzufordern: „Verwenden Sie Kommas, um die einzelnen Tags zu trennen“. Hier ist ein Beispiel für eine Eingabeaufforderung:

[video] "Can you list the relevant tags for this video? Use commas to separate each tag."
Dichte Untertitelung von Videos

Amazon Nova Premier demonstriert erweiterte Funktionen zur Bereitstellung dichter Untertitel — detaillierte Textbeschreibungen, die für mehrere Segmente innerhalb des Videos generiert wurden. Hier ist ein Beispiel für eine Eingabeaufforderung:

[Video] Generate a comprehensive caption that covers all major events and visual elements in the video.