Best practice di prompting per la comprensione visiva - Amazon Nova

Best practice di prompting per la comprensione visiva

La famiglia di modelli Amazon Nova è dotata di nuove capacità visive grazie alle quali il modello può comprendere e analizzare immagini e video, aprendo così possibilità entusiasmanti per l’interazione multimodale. Le sezioni riportate di seguito delineano le linee guida per lavorare con immagini e video in Amazon Nova. Include best practice, esempi di codice e limiti pertinenti da considerare.

Quanto più alta è la qualità delle immagini o dei video forniti, maggiori sono le possibilità che il modello comprenda in modo accurato le informazioni contenute nel file multimediale. Assicurati che le immagini o i video siano chiari e non eccessivamente sfocati o a pixel per garantire risultati più precisi. Se l’immagine o i fotogrammi del video contengono informazioni testuali importanti, verifica che il testo sia leggibile e non troppo piccolo. Evita di ritagliare parti del contesto visivo fondamentali solo per ingrandire il testo.

I modelli Amazon Nova consentono di includere un singolo video nel payload, che puoi fornire in formato base64 o tramite un URI Amazon S3. Quando utilizzi il metodo base64, la dimensione complessiva del payload deve essere inferiore a 25 MB. Tuttavia, puoi specificare un URI Amazon S3 per la comprensione di immagini, video e documenti. Con Amazon S3 puoi utilizzare il modello con file di dimensioni maggiori e con più file multimediali senza dover rispettare il limite della dimensione complessiva del payload. Amazon Nova può analizzare il video di input e rispondere a domande, classificare il video e riassumere le informazioni in esso contenute in base alle istruzioni fornite.

I modelli Amazon Nova consentono di includere più immagini nel payload. La dimensione complessiva del payload non può superare i 25 MB. I modelli Amazon Nova possono analizzare le immagini trasmesse e rispondere a domande, classificare le immagini e riassumerle in base alle istruzioni fornite.

Informazioni sull’immagine

Tipo di file multimediale

Formati di file supportati

Metodo di input

Immagine

PNG, JPG, JPEG, GIF, WebP

Base64 e URI Amazon S3

Informazioni sul video

Formato

Tipo MIME

Codifica video

MKV

video/x-matroska

H.264

MOV

video/quicktime

H.264

H.265

ProRES

MP4

video/mp4

DIVX/XVID

H.264

H.265

J2K (JPEG2000)

MPEG-2

MPEG-4 Parte 2

VP9

WEBM

video/webm

VP8

VP9

FLV

video/x-flv

FLV1

MPEG

video/mpeg

MPEG-1

MPG

video/mpg

MPEG-1

WMV

video/wmv

MSMPEG4v3 (MP43)

3GPP

video/3gpp

H.264

Non ci sono differenze nel numero di token di input video, indipendentemente dal fatto che il video venga trasmesso come base64 (purché rispetti i limiti di dimensione) o tramite una posizione Amazon S3.

Tieni presente che, per il formato di file 3gp, il campo “format” trasmesso alla richiesta API deve avere il formato “three_gp”.

Quando utilizzi Amazon S3, assicurati che i metadati “Content-Type” siano impostati sul tipo MIME corretto per il video.

Video di lunga durata e con molto movimento

Il modello esegue la comprensione di video tramite il campionamento dei fotogrammi del video alla frequenza base di 1 fotogramma al secondo (FPS). Questo valore è un equilibrio tra l’acquisizione dei dettagli nel video e il consumo dei token di input utilizzati, che influisce sul costo, sulla latenza e sulla lunghezza massima del video. Il campionamento di un evento al secondo dovrebbe essere sufficiente per casi d’uso generali, ma potrebbe non offrire buoni risultati in altri casi d’uso che prevedono video con molto movimento come i video sportivi.

Per gestire video di durata maggiore, la frequenza di campionamento diminuisce, per video più lunghi di 16 minuti, a un valore fisso di 960 fotogrammi, distribuiti in tutta la durata del video per Amazon Nova Lite e Amazon Nova Pro. Ciò significa che, più la lunghezza di un video supera i 16 minuti, minore sarà la FPS e minori saranno i dettagli catturati. In questo modo è possibile utilizzare casi d’uso come il riepilogo di video più lunghi, ma con il peggioramento dei problemi riscontrati nei video con molto movimento in cui i dettagli sono importanti. Per Amazon Nova Premier, la frequenza di campionamento di 1 FPS viene applicata fino a un limite di 3.200 fotogrammi.

In molti casi, puoi ottenere un campionamento di 1 FPS per video più lunghi utilizzando procedure di pre-elaborazione e più chiamate. Il video può essere suddiviso in segmenti più piccoli, ognuno dei quali può essere analizzato utilizzando le funzionalità multi-modello del modello. Le risposte vengono poi aggregate e un passaggio finale da testo a testo genera una risposta finale. Tieni presente che, segmentando i video in questo modo, può verificarsi una perdita di contesto. Si tratta di un compromesso simile al chunking per i casi d’uso di generazione potenziata da recupero dati (RAG). Vengono trasferite anche molte delle stesse tecniche di mitigazione, come la finestra scorrevole.

Tieni presente che la segmentazione del video potrebbe ridurre anche la latenza poiché l’analisi viene eseguita in parallelo, ma può generare un numero di token di input significativamente superiore, il che può influire sui costi.

Latenza

I video possono essere di grandi dimensioni. Anche se forniamo strumenti per gestire file fino a 1 GB caricandoli su Amazon S3, rendendo così molto snelli i payload di invocazione, i modelli devono comunque elaborare un numero potenzialmente elevato di token. Se utilizzi chiamate Amazon Bedrock sincrone come Invoke o Converse, assicurati che l’SDK sia configurato con un timeout adeguato.

A prescindere da ciò, l’URI Amazon S3 è il metodo preferito quando la latenza costituisce un fattore determinante. Un’altra strategia è segmentare i video come descritto nella sezione precedente. Anche la pre-elaborazione di video ad alta risoluzione e con un’elevata frequenza di fotogrammi può consentire di risparmiare larghezza di banda ed elaborazione per la dimensione del servizio, riducendo la latenza.