Best practice di prompting per la comprensione visiva
La famiglia di modelli Amazon Nova è dotata di nuove capacità visive grazie alle quali il modello può comprendere e analizzare immagini e video, aprendo così possibilità entusiasmanti per l’interazione multimodale. Le sezioni riportate di seguito delineano le linee guida per lavorare con immagini e video in Amazon Nova. Include best practice, esempi di codice e limiti pertinenti da considerare.
Quanto più alta è la qualità delle immagini o dei video forniti, maggiori sono le possibilità che il modello comprenda in modo accurato le informazioni contenute nel file multimediale. Assicurati che le immagini o i video siano chiari e non eccessivamente sfocati o a pixel per garantire risultati più precisi. Se l’immagine o i fotogrammi del video contengono informazioni testuali importanti, verifica che il testo sia leggibile e non troppo piccolo. Evita di ritagliare parti del contesto visivo fondamentali solo per ingrandire il testo.
I modelli Amazon Nova consentono di includere un singolo video nel payload, che puoi fornire in formato base64 o tramite un URI Amazon S3. Quando utilizzi il metodo base64, la dimensione complessiva del payload deve essere inferiore a 25 MB. Tuttavia, puoi specificare un URI Amazon S3 per la comprensione di immagini, video e documenti. Con Amazon S3 puoi utilizzare il modello con file di dimensioni maggiori e con più file multimediali senza dover rispettare il limite della dimensione complessiva del payload. Amazon Nova può analizzare il video di input e rispondere a domande, classificare il video e riassumere le informazioni in esso contenute in base alle istruzioni fornite.
I modelli Amazon Nova consentono di includere più immagini nel payload. La dimensione complessiva del payload non può superare i 25 MB. I modelli Amazon Nova possono analizzare le immagini trasmesse e rispondere a domande, classificare le immagini e riassumerle in base alle istruzioni fornite.
Tipo di file multimediale |
Formati di file supportati |
Metodo di input |
|---|---|---|
Immagine |
PNG, JPG, JPEG, GIF, WebP |
Base64 e URI Amazon S3 |
Formato |
Tipo MIME |
Codifica video |
|---|---|---|
MKV |
video/x-matroska |
H.264 |
MOV |
video/quicktime |
H.264 H.265 ProRES |
MP4 |
video/mp4 |
DIVX/XVID H.264 H.265 J2K (JPEG2000) MPEG-2 MPEG-4 Parte 2 VP9 |
WEBM |
video/webm |
VP8 VP9 |
FLV |
video/x-flv |
FLV1 |
MPEG |
video/mpeg |
MPEG-1 |
MPG |
video/mpg |
MPEG-1 |
WMV |
video/wmv |
MSMPEG4v3 (MP43) |
3GPP |
video/3gpp |
H.264 |
Non ci sono differenze nel numero di token di input video, indipendentemente dal fatto che il video venga trasmesso come base64 (purché rispetti i limiti di dimensione) o tramite una posizione Amazon S3.
Tieni presente che, per il formato di file 3gp, il campo “format” trasmesso alla richiesta API deve avere il formato “three_gp”.
Quando utilizzi Amazon S3, assicurati che i metadati “Content-Type” siano impostati sul tipo MIME corretto per il video.
Argomenti
Video di lunga durata e con molto movimento
Il modello esegue la comprensione di video tramite il campionamento dei fotogrammi del video alla frequenza base di 1 fotogramma al secondo (FPS). Questo valore è un equilibrio tra l’acquisizione dei dettagli nel video e il consumo dei token di input utilizzati, che influisce sul costo, sulla latenza e sulla lunghezza massima del video. Il campionamento di un evento al secondo dovrebbe essere sufficiente per casi d’uso generali, ma potrebbe non offrire buoni risultati in altri casi d’uso che prevedono video con molto movimento come i video sportivi.
Per gestire video di durata maggiore, la frequenza di campionamento diminuisce, per video più lunghi di 16 minuti, a un valore fisso di 960 fotogrammi, distribuiti in tutta la durata del video per Amazon Nova Lite e Amazon Nova Pro. Ciò significa che, più la lunghezza di un video supera i 16 minuti, minore sarà la FPS e minori saranno i dettagli catturati. In questo modo è possibile utilizzare casi d’uso come il riepilogo di video più lunghi, ma con il peggioramento dei problemi riscontrati nei video con molto movimento in cui i dettagli sono importanti. Per Amazon Nova Premier, la frequenza di campionamento di 1 FPS viene applicata fino a un limite di 3.200 fotogrammi.
In molti casi, puoi ottenere un campionamento di 1 FPS per video più lunghi utilizzando procedure di pre-elaborazione e più chiamate. Il video può essere suddiviso in segmenti più piccoli, ognuno dei quali può essere analizzato utilizzando le funzionalità multi-modello del modello. Le risposte vengono poi aggregate e un passaggio finale da testo a testo genera una risposta finale. Tieni presente che, segmentando i video in questo modo, può verificarsi una perdita di contesto. Si tratta di un compromesso simile al chunking per i casi d’uso di generazione potenziata da recupero dati (RAG). Vengono trasferite anche molte delle stesse tecniche di mitigazione, come la finestra scorrevole.
Tieni presente che la segmentazione del video potrebbe ridurre anche la latenza poiché l’analisi viene eseguita in parallelo, ma può generare un numero di token di input significativamente superiore, il che può influire sui costi.
Latenza
I video possono essere di grandi dimensioni. Anche se forniamo strumenti per gestire file fino a 1 GB caricandoli su Amazon S3, rendendo così molto snelli i payload di invocazione, i modelli devono comunque elaborare un numero potenzialmente elevato di token. Se utilizzi chiamate Amazon Bedrock sincrone come Invoke o Converse, assicurati che l’SDK sia configurato con un timeout adeguato.
A prescindere da ciò, l’URI Amazon S3 è il metodo preferito quando la latenza costituisce un fattore determinante. Un’altra strategia è segmentare i video come descritto nella sezione precedente. Anche la pre-elaborazione di video ad alta risoluzione e con un’elevata frequenza di fotogrammi può consentire di risparmiare larghezza di banda ed elaborazione per la dimensione del servizio, riducendo la latenza.