

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Best practice di prompting per la comprensione visiva
<a name="prompting-video-understanding"></a>

**Nota**  
Questa documentazione è per Amazon Nova versione 1. Per informazioni su come promuovere la comprensione multimodale in Amazon Nova 2, visita [Richiesta](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html) di input multimodali.

La famiglia di modelli Amazon Nova è dotata di nuove capacità visive grazie alle quali il modello può comprendere e analizzare immagini e video, aprendo così possibilità entusiasmanti per l’interazione multimodale. Le sezioni riportate di seguito delineano le linee guida per lavorare con immagini e video in Amazon Nova. Include best practice, esempi di codice e limiti pertinenti da considerare.

Quanto più alta è la qualità delle immagini o dei video forniti, maggiori sono le possibilità che il modello comprenda in modo accurato le informazioni contenute nel file multimediale. Assicurati che le immagini o i video siano chiari e non eccessivamente sfocati o a pixel per garantire risultati più precisi. Se l’immagine o i fotogrammi del video contengono informazioni testuali importanti, verifica che il testo sia leggibile e non troppo piccolo. Evita di ritagliare parti del contesto visivo fondamentali solo per ingrandire il testo.

I modelli Amazon Nova consentono di includere un singolo video nel payload, che puoi fornire in formato base64 o tramite un URI Amazon S3. Quando utilizzi il metodo base64, la dimensione complessiva del payload deve essere inferiore a 25 MB. Tuttavia, puoi specificare un URI Amazon S3 per la comprensione di immagini, video e documenti. Con Amazon S3 puoi utilizzare il modello con file di dimensioni maggiori e con più file multimediali senza dover rispettare il limite della dimensione complessiva del payload. Amazon Nova può analizzare il video di input e rispondere a domande, classificare il video e riassumere le informazioni in esso contenute in base alle istruzioni fornite.

I modelli Amazon Nova consentono di includere più immagini nel payload. La dimensione complessiva del payload non può superare i 25 MB. I modelli Amazon Nova possono analizzare le immagini trasmesse e rispondere a domande, classificare le immagini e riassumerle in base alle istruzioni fornite.


**Informazioni sull’immagine**  

| Tipo di file multimediale | Formati di file supportati | Metodo di input | 
| --- |--- |--- |
| Immagine | PNG, JPG, JPEG, GIF, WebP | Base64 e URI Amazon S3 | 


**Informazioni sul video**  

| Formato | Tipo MIME | Codifica video | 
| --- |--- |--- |
| MKV | video/x-matroska | H.264 | 
| MOV | video/quicktime |  H.264 H.265 ProRES  | 
| MP4 | video/mp4 |  DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Parte 2 VP9  | 
| WEBM | video/webm |  VP8 VP9  | 
| FLV | video/x-flv | FLV1 | 
| MPEG | video/mpeg | MPEG-1 | 
| MPG | video/mpg | MPEG-1 | 
| WMV | video/wmv | MSMPEG4v3 (MP43) | 
| 3GPP | video/3gpp | H.264 | 

Non ci sono differenze nel numero di token di input video, indipendentemente dal fatto che il video venga trasmesso come base64 (purché rispetti i limiti di dimensione) o tramite una posizione Amazon S3.

Tieni presente che, per il formato di file 3gp, il campo “format” trasmesso alla richiesta API deve avere il formato “three\$1gp”.

Quando utilizzi Amazon S3, assicurati che i metadati “Content-Type” siano impostati sul tipo MIME corretto per il video.

**Topics**
+ [Video di lunga durata e con molto movimento](#prompting-video-motion)
+ [Latenza](#prompting-video-latency)
+ [Tecniche di creazione di prompt per la comprensione della visione](prompting-vision-prompting.md)

## Video di lunga durata e con molto movimento
<a name="prompting-video-motion"></a>

Il modello esegue la comprensione di video tramite il campionamento dei fotogrammi del video alla frequenza base di 1 fotogramma al secondo (FPS). Questo valore è un equilibrio tra l’acquisizione dei dettagli nel video e il consumo dei token di input utilizzati, che influisce sul costo, sulla latenza e sulla lunghezza massima del video. Il campionamento di un evento al secondo dovrebbe essere sufficiente per casi d’uso generali, ma potrebbe non offrire buoni risultati in altri casi d’uso che prevedono video con molto movimento come i video sportivi.

Per gestire video di durata maggiore, la frequenza di campionamento diminuisce, per video più lunghi di 16 minuti, a un valore fisso di 960 fotogrammi, distribuiti in tutta la durata del video per Amazon Nova Lite e Amazon Nova Pro. Ciò significa che, più la lunghezza di un video supera i 16 minuti, minore sarà la FPS e minori saranno i dettagli catturati. In questo modo è possibile utilizzare casi d’uso come il riepilogo di video più lunghi, ma con il peggioramento dei problemi riscontrati nei video con molto movimento in cui i dettagli sono importanti. Per Amazon Nova Premier, la frequenza di campionamento di 1 FPS viene applicata fino a un limite di 3.200 fotogrammi.

In molti casi, puoi ottenere un campionamento di 1 FPS per video più lunghi utilizzando procedure di pre-elaborazione e più chiamate. Il video può essere suddiviso in segmenti più piccoli, ognuno dei quali può essere analizzato utilizzando le funzionalità multi-modello del modello. Le risposte vengono aggregate e l'utilizzo di un passaggio finale text-to-text genera una risposta finale. Tieni presente che, segmentando i video in questo modo, può verificarsi una perdita di contesto. Si tratta di un compromesso simile al chunking per i casi d’uso di generazione potenziata da recupero dati (RAG). Vengono trasferite anche molte delle stesse tecniche di mitigazione, come la finestra scorrevole.

Tieni presente che la segmentazione del video potrebbe ridurre anche la latenza poiché l’analisi viene eseguita in parallelo, ma può generare un numero di token di input significativamente superiore, il che può influire sui costi.

## Latenza
<a name="prompting-video-latency"></a>

I video possono essere di grandi dimensioni. Anche se forniamo strumenti per gestire file fino a 1 GB caricandoli su Amazon S3, rendendo così molto snelli i payload di invocazione, i modelli devono comunque elaborare un numero potenzialmente elevato di token. Se utilizzi chiamate Amazon Bedrock sincrone come Invoke o Converse, assicurati che l’SDK sia configurato con un timeout adeguato.

A prescindere da ciò, l’URI Amazon S3 è il metodo preferito quando la latenza costituisce un fattore determinante. Un’altra strategia è segmentare i video come descritto nella sezione precedente. Anche la pre-elaborazione di video ad alta risoluzione e con un’elevata frequenza di fotogrammi può consentire di risparmiare larghezza di banda ed elaborazione per la dimensione del servizio, riducendo la latenza.

# Tecniche di creazione di prompt per la comprensione della visione
<a name="prompting-vision-prompting"></a>

**Nota**  
Questa documentazione è per Amazon Nova versione 1. Per informazioni su come promuovere la comprensione multimodale in Amazon Nova 2, visita [Richiesta](https://docs.aws.amazon.com/nova/latest/nova2-userguide/prompting-multimodal.html) di input multimodali.

Le seguenti tecniche di creazione di prompt per la visione ti aiuteranno a creare prompt migliori per Amazon Nova.

**Topics**
+ [Il posizionamento è importante](#prompting-video-placement)
+ [Più file multimediali con componenti visivi](#prompting-video-vision-components)
+ [Utilizza le istruzioni per l’utente per seguire meglio le istruzioni per le attività di comprensione visiva](#prompting-video-instructions)
+ [Pochi esempi di riprese](#prompting-video-exemplars)
+ [Rilevamento del riquadro di delimitazione](#prompting-video-bounding)
+ [Stile o output più ricchi](#prompting-video-richer-output)
+ [Estrai il contenuto del documento in Markdown](#prompting-video-markdown)
+ [Impostazioni dei parametri di inferenza per la comprensione visiva](#prompting-video-parameters)
+ [Classificazione video](#prompting-video-classification)

## Il posizionamento è importante
<a name="prompting-video-placement"></a>

Ti consigliamo di inserire file multimediali (come immagini o video) prima di aggiungere qualsiasi documento, seguiti dal testo delle istruzioni o dai prompt per guidare il modello. Sebbene le immagini posizionate dopo il testo o intervallate da testo continuino a funzionare in modo adeguato, se il caso d’uso lo consente, l’approccio preferito è la struttura *\$1media\$1file\$1-then-\$1text\$1*.

Il seguente modello può essere utilizzato per posizionare i file multimediali prima del testo durante la comprensione visiva.

```
{
      "role": "user",
      "content": [
        {
          "image": "..."
        },
        {
          "video": "..."
        },
        {
          "document": "..."
        },
        {
          "text": "..."
        }
      ]
}
```

### Esempio: contenuti multimediali prima del testo
<a name="vision-collapsible"></a>


|  | **Nessuna struttura seguita** | Prompt ottimizzato | 
| --- |--- |--- |
| Utente | Spiega cosa sta succedendo nell’immagine [Image1.png] |  [Image1.png] Spiega cosa sta succedendo nell’immagine?  | 

## Più file multimediali con componenti visivi
<a name="prompting-video-vision-components"></a>

In situazioni in cui fornisci più file multimediali fra i turni, introduci ogni immagine con un’etichetta numerata. Ad esempio, se utilizzi due immagini, etichettale `Image 1:` e `Image 2:`. Se usi tre video, etichettali con `Video 1:`, ` Video 2:` e `Video 3:`. Non sono necessarie nuove righe tra le immagini o tra le immagini e il prompt.

Il seguente modello può essere utilizzato per inserire più file multimediali:

```
messages = [
        {
            "role": "user",
            "content": [
                {"text":"Image 1:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}},
                {"text":"Image 2:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}},
                {"text":"Image 3:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}},
                {"text":"Image 4:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}},
                {"text":"Image 5:"},
                {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}},
                {"text":user_prompt},
            ],
        }
    ]
```


| Prompt non ottimizzato | Prompt ottimizzato | 
| --- |--- |
|  Descrivi ciò che vedi nella seconda immagine. [Image1.png] [Image2.png]  |  [Image1.png] [Image2.png] Descrivi ciò che vedi nella seconda immagine.  | 
|  La seconda immagine è descritta nel documento incluso? [Image1.png] [Image2.png] [Document1.pdf]  |  [Image1.png] [Image2.png] [Document1.pdf] La seconda immagine è descritta nel documento incluso?  | 

A causa dei lunghi token contestuali dei tipi di file multimediale, il prompt di sistema indicato all’inizio del prompt potrebbe non essere rispettato in alcune occasioni. In questa occasione, ti consigliamo di spostare le istruzioni di sistema ai turni degli utenti e di seguire le indicazioni generali di *\$1media\$1file\$1-then-\$1text\$1*. Ciò non influisce sulla creazione di prompt di sistema con RAG, sugli agenti o sull’utilizzo degli strumenti.

## Utilizza le istruzioni per l’utente per seguire meglio le istruzioni per le attività di comprensione visiva
<a name="prompting-video-instructions"></a>

Per la comprensione dei video, il numero di token nel contesto rende molto importanti i suggerimenti in [Il posizionamento è importante](#prompting-video-placement). Usa il prompt di sistema per aspetti più generali come tono e stile. Ti consigliamo di conservare le istruzioni relative al video come parte del prompt dell’utente per migliorare le prestazioni.

Il seguente modello può essere utilizzato per migliorare le istruzioni:

```
{
    "role": "user",
    "content": [
       {
           "video": {
                "format": "mp4",
                "source": { ... }
           }
       },
       {
           "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..."
       }
    ]
}
```

Proprio come per il testo, consigliamo di richiedere immagini e video chain-of-thought per ottenere prestazioni migliori. Si consiglia inoltre di inserire le chain-of-thought direttive nel prompt di sistema, mantenendo le altre istruzioni nel prompt dell'utente.

**Importante**  
Il modello Amazon Nova Premier è un modello di intelligenza superiore della famiglia Amazon Nova che è in grado di gestire attività più complesse. Se le tue attività richiedono un chain-of-thought pensiero avanzato, ti consigliamo di utilizzare il modello di prompt fornito in Dai [ad Amazon Nova il tempo di pensare () chain-of-thought](https://docs.aws.amazon.com/nova/latest/userguide/prompting-chain-of-thought.html). Questo approccio può aiutare a migliorare le capacità di analisi e risoluzione dei problemi del modello.

## Pochi esempi di riprese
<a name="prompting-video-exemplars"></a>

Proprio come per i modelli di testo, ti consigliamo di fornire esempi di immagini per migliorare le prestazioni di comprensione delle immagini (non è possibile fornire esempi di video, a causa della limitazione). single-video-per-inference Ti consigliamo di inserire gli esempi nel prompt dell’utente, dopo il file multimediale, anziché fornirli nel prompt di sistema.


|  | 0 colpi | 2 colpi | 
| --- |--- |--- |
| Utente |  | [Immagine 1] | 
| Assistente |  | La descrizione dell'immagine 1 | 
| Utente |  | [Immagine 2] | 
| Assistente |  | La descrizione dell'immagine 2 | 
| Utente | [Image 3] Spiega cosa sta succedendo nell’immagine | [Image 3] Spiega cosa sta succedendo nell’immagine | 

## Rilevamento del riquadro di delimitazione
<a name="prompting-video-bounding"></a>

Se devi identificare le coordinate del riquadro di delimitazione per un oggetto, puoi utilizzare il modello Amazon Nova per generare riquadri di delimitazione su una scala di [0, 1.000). Dopo aver ottenuto queste coordinate, puoi ridimensionarle in base alle dimensioni dell’immagine come fase di post-elaborazione. Per informazioni più dettagliate su come svolgere questa fase di post-elaborazione, consulta il notebook [Amazon Nova Image Grounding](https://github.com/aws-samples/amazon-nova-samples/blob/main/multimodal-understanding/repeatable-patterns/13-image-grounding/image_grounding.ipynb).

Di seguito è riportato un esempio di prompt per il rilevamento del riquadro di delimitazione:

```
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format.
Output example:
[
    {"{item_name}": [x1, y1, x2, y2]},
    ...
]

Result:
```

## Stile o output più ricchi
<a name="prompting-video-richer-output"></a>

L’output di comprensione dei video può essere molto breve. Se desideri output più lunghi, ti consigliamo di creare un utente tipo per il modello. Puoi fare in modo che questo utente tipo risponda nel modo desiderato, come se utilizzasse il ruolo di sistema.

È possibile apportare ulteriori modifiche alle risposte con [tecniche one-shot e few-shot](prompting-examples.md). Fornisci esempi di come dovrebbe essere una buona risposta e il modello può imitarne alcuni aspetti durante la generazione delle risposte.

## Estrai il contenuto del documento in Markdown
<a name="prompting-video-markdown"></a>

Amazon Nova Premier dimostra funzionalità avanzate per comprendere i grafici incorporati nei documenti e la capacità di leggere e comprendere i contenuti di domini complessi come gli articoli scientifici. Inoltre, Amazon Nova Premier mostra prestazioni migliorate nell’estrazione dei contenuti dei documenti e può emettere queste informazioni nei formati Markdown Table e Latex.

L’esempio seguente fornisce una tabella in un’immagine, insieme a un prompt per Amazon Nova Premier per convertire il contenuto dell’immagine in una tabella Markdown. Dopo aver creato il Markdown (o Latex Representation), puoi utilizzare strumenti per convertire il contenuto in JSON o altro output strutturato.

```
Make a table representation in Markdown of the image provided.
```

![\[Una tabella di dati fornita come immagine anziché come documento\]](http://docs.aws.amazon.com/it_it/nova/latest/userguide/images/tableInImage.png)


Di seguito è riportato l’output fornito dal modello:

```
| No. | DATE       | DESCRIPTION | AMOUNT |
|-----|------------|-------------|--------|
| 1   | 2021-04-19 | Guest room  | $180   |
| 2   | 2021-04-19 | Breakfast   | $30    |
| 3   | 2021-04-20 | Guest room  | $180   |
| 4   | 2021-04-20 | Laundry     | $15    |
| 5   | 2021-04-20 | Dinner      | $70    |
| 6   | 2021-04-20 | Breakfast   | $30    |
| 7   | 2021-04-21 | Guest room  | $180   |
| 8   | 2021-04-21 | Breakfast   | $30    |
| 9   | 2021-04-21 | Dinner      | $70    |
| 10  | 2021-04-21 | Laundry     | $15    |
|     |            | Subtotal    | $800   |
|     |            | Discounts   | $24    |
|     |            | Taxes       | $68.9  |
|     |            | Total       | $844.9 |
```

Questo output utilizza una notazione di tabella personalizzata in cui `||` viene utilizzato come separatore di colonna e `&&` viene utilizzato come separatore di riga.

## Impostazioni dei parametri di inferenza per la comprensione visiva
<a name="prompting-video-parameters"></a>

Per i casi d’uso relativi alla comprensione visiva, ti consigliamo di iniziare con i parametri di inferenza `temperature` impostati su **0** e `topK` impostati su **1**. Dopo aver osservato l’output del modello, potrai quindi regolare i parametri di inferenza in base al caso d’uso. Solitamente, questi valori dipendono dall’attività e dalla varianza richiesta. Aumenta l’impostazione della temperatura per indurre più variazioni nelle risposte.

## Classificazione video
<a name="prompting-video-classification"></a>

Per ordinare efficacemente i contenuti video in categorie appropriate, fornisci categorie che il modello può utilizzare per la classificazione. Esamina il seguente prompt di esempio:

```
[Video]

Which category would best fit this video? Choose an option from the list below:
\Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
```

**Taggare i video**  
Amazon Nova Premier presenta funzionalità migliorate per la creazione di tag video. Per ottenere risultati ottimali, usa la seguente istruzione per richiedere i tag separati da virgole: “Usa le virgole per separare ogni tag”. Di seguito è riportato un prompt di esempio:

```
[video]

"Can you list the relevant tags for this video? Use commas to separate each tag."
```

**Sottotitoli dettagliati dei video**  
Amazon Nova Premier dimostra funzionalità avanzate per fornire sottotitoli dettagliati, ossia descrizioni testuali approfondite generate per più segmenti all’interno del video. Di seguito è riportato un prompt di esempio:

```
[Video]

Generate a comprehensive caption that covers all major events and visual elements in the video.
```