

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Bewährte Methoden zu visuellen Verständnis-Prompts
<a name="prompting-video-understanding"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Informationen dazu, wie Sie in Amazon Nova 2 zu multimodalem Verständnis beitragen können, finden Sie unter [Multimodale Eingaben veranlassen](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Die Modellfamilie Amazon Nova verfügt über neuartige Bildverarbeitungsfunktionen, die es dem Modell ermöglichen, Bilder und Videos zu verstehen und zu analysieren, wodurch sich spannende Möglichkeiten für multimodale Interaktionen eröffnen. In den folgenden Abschnitten werden Richtlinien für die Arbeit mit Bildern und Videos in Amazon Nova beschrieben. Dazu gehören bewährte Methoden, Codebeispiele und relevante Einschränkungen, die zu berücksichtigen sind.

Je höher die Qualität der von Ihnen bereitgestellten Bilder oder Videos ist, desto größer ist die Wahrscheinlichkeit, dass die Modelle die Informationen in der Mediendatei korrekt verstehen. Achten Sie darauf, dass die Bilder oder Videos klar und frei von übermäßiger Unschärfe oder Pixelierung sind, um genauere Ergebnisse zu gewährleisten. Sollten das Bild oder die Videoframes wichtige Textinformationen enthalten, vergewissern Sie sich bitte, dass der Text lesbar und nicht zu klein ist. Achten Sie darauf, wichtige visuelle Elemente nicht zu beseitigen, nur um den Text zu vergrößern.

Mit Amazon-Nova-Modellen können Sie ein einzelnes Video in die Nutzdaten einbinden, das entweder im Base64-Format oder über eine Amazon-S3-URI bereitgestellt werden kann. Bei Verwendung der Base64-Methode darf die Gesamtgröße der Nutzdaten nicht größer als 25 MB sein. Sie können jedoch ein Amazon-S3-URI für Bild-, Video- und Dokumentinhalte angeben. Durch die Verwendung von Amazon S3 können Sie das Modell für größere Dateien und mehrere Mediendateien nutzen, ohne durch die Beschränkung der Gesamtnutzdatengröße eingeschränkt zu sein. Amazon Nova kann das Eingabevideo analysieren und Fragen beantworten, ein Video klassifizieren und Informationen im Video anhand der bereitgestellten Anweisungen zusammenfassen.

Mit Amazon-Nova-Modellen können Sie mehrere Bilder in die Nutzdaten aufnehmen. Die Nutzdaten dürfen insgesamt nicht größer als 25 MB sein. Amazon-Nova-Modelle können die übermittelten Bilder analysieren und Fragen beantworten, ein Bild klassifizieren und Bilder anhand der bereitgestellten Anweisungen zusammenfassen.


**Bildinformationen**  

| Mediendateityp | Unterstützte Datei-Formate | Eingabemethode | 
| --- |--- |--- |
| Image | PNG, JPG, JPEG, GIF, WebP | Base64- und Amazon-S3-URI | 


**Videoinformationen**  

| Format | MIME-Typ | Videokodierung | 
| --- |--- |--- |
| MKV | video/x-matroska | H.264 | 
| MOV | video/quicktime |  H.264 H.265 ProRES  | 
| MP4 | video/mp4 |  DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Part 2 VP9  | 
| WEBM | Video/Webm |  VP8 VP9  | 
| FLV | video/x-flv | FLV1 | 
| MPEG | Video/MPEG | MPEG-1 | 
| MPG | Video/MPG | MPEG-1 | 
| WMV | Video/WMV | MSMPEG4v3 (MP43) | 
| 3GPP | Video/3gpp | H.264 | 

Es gibt keine Unterschiede in der Anzahl der Videoeingabe-Token, unabhängig davon, ob das Video als base64 (sofern es innerhalb der Größeneinschränkungen liegt) oder über einen Amazon-S3-Speicherort übermittelt wird.

Beachten Sie, dass für das 3gp-Dateiformat das in der API-Anfrage übergebene Feld „format“ das Format „three\$1gp“ haben sollte.

Bei der Verwendung von Amazon S3 sollten Sie sicherstellen, dass Ihre „Content-Type”-Metadaten auf den korrekten MIME-Typ für das Video eingestellt sind.

**Topics**
+ [

## Lange und bewegungsintensive Videos
](#prompting-video-motion)
+ [

## Latenz
](#prompting-video-latency)
+ [

# Prompt-Ansätze zum visuellen Verständnis
](prompting-vision-prompting.md)

## Lange und bewegungsintensive Videos
<a name="prompting-video-motion"></a>

Das Modell führt die Videoanalyse durch, indem es Videobilder mit einer Basisrate von 1 Bild pro Sekunde (FPS) abtastet. Es handelt sich um eine Abwägung zwischen der Erfassung von Details im Video und dem Verbrauch von Input-Token, was sich auf die Kosten, die Latenz und die maximale Videolänge auswirkt. Während eine Abtastung von einem Ereignis pro Sekunde für allgemeine Anwendungsfälle ausreichend sein sollte, kann es bei einigen Anwendungsfällen mit Videos mit vielen Bewegungen, wie beispielsweise Sportvideos, zu Leistungseinbußen kommen.

Um längere Videos verarbeiten zu können, wird die Abtastrate bei Videos, die länger als 16 Minuten sind, auf einen festen Wert von 960 Bildern reduziert, die über die gesamte Länge des Videos verteilt sind, sowohl für Amazon Nova Lite als auch für Amazon Nova Pro. Dies bedeutet, dass bei einer Videolänge von mehr als 16 Minuten die Bildfrequenz sinkt und weniger Details erfasst werden. Dies ermöglicht Anwendungsfälle wie die Zusammenfassung längerer Videos, verschärft jedoch Probleme bei Videos mit vielen Bewegungen, bei denen Details wichtig sind. Für Amazon Nova Premier wird die Samplingrate von 1 FPS bis zu einem Limit von 3 200 Frames angewendet.

In vielen Fällen können Sie bei längeren Videos eine Abtastrate von 1 FPS erzielen, indem Sie Vorverarbeitungsschritte und mehrere Aufrufe verwenden. Das Video kann in kleinere Segmente unterteilt werden, die dann jeweils mit den Multi-Modell-Funktionen des Modells analysiert werden. Die Antworten werden aggregiert und in einem letzten Schritt text-to-text wird eine endgültige Antwort generiert. Beachten Sie, dass es zu Kontextverlusten kommen kann, wenn die Videos auf diese Weise segmentiert werden. Dies ist vergleichbar mit den Kompromissen beim Chunking für RAG-Anwendungsfälle, und viele der gleichen Abhilfemaßnahmen lassen sich gut übertragen, wie z. B. gleitendes Fenster.

Bitte beachten Sie, dass die Segmentierung des Videos ebenfalls die Latenz verringern kann, da die Analyse parallel durchgeführt wird, jedoch kann dies zu einer erheblichen Zunahme der Eingabetoken führen, was sich auf die Kosten auswirkt.

## Latenz
<a name="prompting-video-latency"></a>

Videos können umfangreich sein. Obwohl wir die Möglichkeit bieten, Dateien mit einer Größe von bis zu 1 GB durch Hochladen auf Amazon S3 zu verarbeiten, wodurch die Aufruf-Nutzdaten verschlankt werden, müssen die Modelle dennoch eine potenziell große Anzahl von Token verarbeiten. Wenn Sie synchrone Amazon Bedrock -Aufrufe wie „Invoke“ oder „Converse“ verwenden, stellen Sie bitte sicher, dass Ihr SDK mit einer angemessenen Zeitüberschreitung konfiguriert ist.

Unabhängig davon ist die Amazon-S3-URI die bevorzugte Methode, wenn Latenz eine Rolle spielt. Die Segmentierung von Videos, wie im vorherigen Abschnitt beschrieben, ist eine weitere Strategie. Die Vorverarbeitung von Videos mit hoher Auflösung und hoher Bildfrequenz kann ebenfalls Bandbreite und Rechenleistung auf der Serviceseite einsparen und somit die Latenz verringern.

# Prompt-Ansätze zum visuellen Verständnis
<a name="prompting-vision-prompting"></a>

**Anmerkung**  
Diese Dokumentation bezieht sich auf Amazon Nova Version 1. Informationen dazu, wie Sie in Amazon Nova 2 zu multimodalem Verständnis beitragen können, finden Sie unter [Multimodale Eingaben veranlassen](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html).

Die folgenden Ansätze helfen Ihnen dabei, bessere Prompts für Amazon Nova zu erstellen.

**Topics**
+ [

## Auf die Platzierung kommt es an
](#prompting-video-placement)
+ [

## Mehrere Mediendateien mit Bildverarbeitungskomponenten
](#prompting-video-vision-components)
+ [

## Verwenden Sie Benutzeranweisungen, um die Befolgung von Anweisungen für visuelle Verständnisaufgaben zu verbessern.
](#prompting-video-instructions)
+ [

## Few-Shot-Beispiele
](#prompting-video-exemplars)
+ [

## Begrenzungsrahmenerkennung
](#prompting-video-bounding)
+ [

## Reichhaltigere Ausgaben oder Stil
](#prompting-video-richer-output)
+ [

## Dokumentinhalte in Markdown extrahieren
](#prompting-video-markdown)
+ [

## Einstellungen von Inferenzparametern für das visuelle Verständnis
](#prompting-video-parameters)
+ [

## Videoklassifizierung
](#prompting-video-classification)

## Auf die Platzierung kommt es an
<a name="prompting-video-placement"></a>

Wir empfehlen Ihnen, Mediendateien (wie Bilder oder Videos) vor dem Hinzufügen von Dokumenten zu platzieren, gefolgt von Ihrem Anleitungstext oder Ihren Prompts, um das Modell anzuleiten. Bilder, die nach dem Text platziert oder von Text durchsetzt sind, funktionieren zwar immer noch ausreichend, wenn es der Anwendungsfall zulässt, ist jedoch die Struktur *\$1media\$1file\$1–then–\$1text\$1* der bevorzugte Ansatz.

Die folgende Vorlage kann verwendet werden, um Mediendateien bei der visuellen Erfassung vor Text zu platzieren.

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### Beispiel: Medien vor Text
<a name="vision-collapsible"></a>


|  | **Keine Struktur befolgt** | Optimierter Prompt | 
| --- |--- |--- |
| Benutzer | Erkläre, was in dem Bild [Image1.png] passiert. |  [Image1.png] Erkläre, was passiert in dem Bild?  | 

## Mehrere Mediendateien mit Bildverarbeitungskomponenten
<a name="prompting-video-vision-components"></a>

In Fällen, in denen Sie mehrere Mediendateien pro Runde bereitstellen, versehen Sie bitte jedes Bild mit einer nummerierten Beschriftung. Wenn Sie beispielsweise zwei Bilder verwenden, beschriften Sie sie mit `Image 1:` und `Image 2:`. Wenn Sie drei Videos verwenden, beschriften Sie sie mit `Video 1:`, ` Video 2:` und `Video 3:`. Sie benötigen keine Zeilenumbrüche zwischen Bildern oder zwischen Bildern und dem Prompt.

Die folgende Vorlage kann verwendet werden, um mehrere Mediendateien zu platzieren:

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| Nicht optimierter Prompt | Optimierter Prompt | 
| --- |--- |
|  Beschreibe, was du auf dem zweiten Bild siehst. [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] Beschreibe, was du auf dem zweiten Bild siehst.  | 
|  Ist das zweite Bild im beigefügten Dokument beschrieben? [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] Ist das zweite Bild im beigefügten Dokument beschrieben?  | 

Aufgrund der umfangreichen Kontexttoken der Mediendateitypen kann es vorkommen, dass der zu Beginn des Prompts angegebene System-Prompt in bestimmten Fällen nicht berücksichtigt wird. In diesem Fall empfehlen wir Ihnen, alle Systemanweisungen in Benutzerrunden zu verschieben und die allgemeine Richtlinie *\$1media\$1file\$1-dann-\$1text\$1* zu befolgen. Dies hat keine Auswirkungen auf das System-Prompting mit RAG, Agenten oder die Toolnutzung.

## Verwenden Sie Benutzeranweisungen, um die Befolgung von Anweisungen für visuelle Verständnisaufgaben zu verbessern.
<a name="prompting-video-instructions"></a>

Für das Verständnis von Videos ist die Anzahl der Token im Kontext für die Empfehlungen in [Auf die Platzierung kommt es an](#prompting-video-placement) von großer Bedeutung. Verwenden Sie den System-Prompt für allgemeinere Dinge wie Ton und Stil. Wir empfehlen, die Videoanweisungen als Teil des Benutzer-Prompts beizubehalten, um die Leistung zu verbessern.

Die folgende Vorlage kann für verbesserte Anweisungen verwendet werden:

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

Genau wie bei Text empfehlen wir, Bilder und Videos zu chain-of-thought beantragen, um bessere Leistungen zu erzielen. Wir haben außerdem empfohlen, die chain-of-thought Anweisungen in der Systemaufforderung zu platzieren und andere Anweisungen in der Benutzereingabeaufforderung beizubehalten.

**Wichtig**  
Das Modell Amazon Nova Premier ist ein Modell mit höherer Intelligenz aus der Amazon-Nova-Familie, das komplexere Aufgaben bewältigen kann. Wenn Ihre Aufgaben fortgeschrittenes chain-of-thought Denken erfordern, empfehlen wir Ihnen, die unter [Geben Sie Amazon Nova Zeit zum Nachdenken (chain-of-thought) bereitgestellte Vorlage für Eingabeaufforderungen zu](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html) verwenden. Dieser Ansatz kann dazu beitragen, die Analytik- und Problemlösungsfähigkeiten des Modells zu verbessern.

## Few-Shot-Beispiele
<a name="prompting-video-exemplars"></a>

Genau wie bei Textmodellen empfehlen wir, dass Sie Beispiele für Bilder angeben, um das Verständnis von Bildern zu verbessern (Beispiele für Videos können aufgrund der single-video-per-inference Einschränkungen nicht bereitgestellt werden). Es wird empfohlen, die Beispiele im Benutzer-Prompt nach der Mediendatei zu platzieren, anstatt sie im System-Prompt bereitzustellen.


|  | 0-Schuss | 2-Schuss | 
| --- |--- |--- |
| Benutzer |  | [Bild 1] | 
| Assistent |  | Die Beschreibung von Bild 1 | 
| Benutzer |  | [Bild 2] | 
| Assistent |  | Die Beschreibung von Bild 2 | 
| Benutzer | [Image 3] Erkläre, was auf dem Bild passiert | [Image 3] Erkläre, was auf dem Bild passiert | 

## Begrenzungsrahmenerkennung
<a name="prompting-video-bounding"></a>

Wenn Sie die Koordinaten der Begrenzungsrahmen für ein Objekt ermitteln müssen, können Sie das Amazon-Nova-Modell verwenden, um Begrenzungsrahmen auf einer Skala von [0, 1 000) auszugeben. Nachdem Sie diese Koordinaten erhalten haben, können Sie sie als Nachbearbeitungsschritt auf der Grundlage der Bildabmessungen skalieren. Ausführlichere Informationen zur Durchführung dieses Nachbearbeitungsschritts finden Sie im Handbuch [bildbasiertes Grounding mit Amazon Nova](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb).

Im Folgenden finden Sie einen Beispiel-Prompt für die Erkennung von Begrenzungsrahmen:

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## Reichhaltigere Ausgaben oder Stil
<a name="prompting-video-richer-output"></a>

Die Ausgabe zum Verstehen von Videos kann sehr kurz sein. Wenn Sie längere Ausgaben wünschen, empfehlen wir, eine Persona für das Modell zu erstellen. Sie können diese Persona anweisen, auf die von Ihnen gewünschte Weise zu antworten, ähnlich wie bei der Verwendung der Systemrolle.

Weitere Änderungen der Antworten können mit [One-Shot- und Few-Shot-Techniken](prompting-examples.md) erreicht werden. Geben Sie Beispiele dafür, wie eine gute Antwort aussehen sollte, und das Modell kann Aspekte davon nachahmen und gleichzeitig Antworten generieren.

## Dokumentinhalte in Markdown extrahieren
<a name="prompting-video-markdown"></a>

Amazon Nova Premier verfügt über verbesserte Funktionen zum Verstehen von in Dokumenten eingebetteten Diagrammen und ist in der Lage, Inhalte aus komplexen Bereichen wie wissenschaftlichen Arbeiten zu lesen und zu verstehen. Außerdem bietet Amazon Nova Premier eine verbesserte Leistung beim Extrahieren von Dokumentinhalten und kann diese Informationen in den Formaten Markdown-Tabelle und Latex ausgeben.

Das folgende Beispiel enthält eine Tabelle in einem Bild sowie einen Prompt für Amazon Nova Premier, den Inhalt des Bildes in eine Markdown-Tabelle zu konvertieren. Nachdem die Markdown-Tabelle (oder Latex Representation) erstellt wurde, können Sie Tools verwenden, um den Inhalt in JSON oder eine andere strukturierte Ausgabe zu konvertieren.

```
Make a table representation in Markdown of the image provided.
```

![\[Eine Datentabelle, die als Bild statt als Dokument bereitgestellt wird\]](http://docs.aws.amazon.com/de_de/nova/latest/userguide/images/tableInImage.png)


Hier ist die Ausgabe, die das Modell liefert:

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

Diese Ausgabe verwendet eine benutzerdefinierte Tabellennotation, wobei sie `||` als Spaltentrennzeichen und `&&` als Zeilentrennzeichen verwendet.

## Einstellungen von Inferenzparametern für das visuelle Verständnis
<a name="prompting-video-parameters"></a>

Für Anwendungsfälle im Bereich Bildverarbeitung empfehlen wir, mit den Inferenzparametern `temperature`, eingestellt auf **0**, und `topK`, eingestellt auf **1** zu beginnen. Nachdem Sie die Ausgabe des Modells beobachtet haben, können Sie die Inferenzparameter dann je nach Anwendungsfall anpassen. Diese Werte hängen in der Regel von der Aufgabe und der benötigten Varianz ab. Erhöhen Sie die Temperatureinstellung, um mehr Variationen in den Antworten zu erzielen.

## Videoklassifizierung
<a name="prompting-video-classification"></a>

Um Videoinhalte effektiv in geeignete Kategorien zu sortieren, geben Sie Kategorien an, die das Modell zur Klassifizierung verwenden kann. Beachten Sie den folgenden Beispiel-Prompt:

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**Videos taggen**  
Amazon Nova Premier bietet verbesserte Funktionen zum Erstellen von Video-Tags. Die besten Ergebnisse erzielen Sie, wenn Sie die folgende Anweisung verwenden, um durch Kommas getrennte Tags anzufordern: „Verwende Kommas, um die einzelnen Tags zu trennen“. Hier ist ein Beispiel-Prompt:

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**Umfassende Untertitelung von Videos**  
Amazon Nova Premier bietet erweiterte Funktionen zur Bereitstellung von detaillierten Untertiteln – ausführliche Textbeschreibungen, die für mehrere Segmente innerhalb des Videos generiert werden. Hier ist ein Beispiel-Prompt:

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```