Video di lunga durata e con molto movimento Latenza

Best practice di prompting per la comprensione visiva

Nota

Questa documentazione è per Amazon Nova versione 1. Per informazioni su come promuovere la comprensione multimodale in Amazon Nova 2, visita Richiesta di input multimodali.

La famiglia di modelli Amazon Nova è dotata di nuove capacità visive grazie alle quali il modello può comprendere e analizzare immagini e video, aprendo così possibilità entusiasmanti per l’interazione multimodale. Le sezioni riportate di seguito delineano le linee guida per lavorare con immagini e video in Amazon Nova. Include best practice, esempi di codice e limiti pertinenti da considerare.

Quanto più alta è la qualità delle immagini o dei video forniti, maggiori sono le possibilità che il modello comprenda in modo accurato le informazioni contenute nel file multimediale. Assicurati che le immagini o i video siano chiari e non eccessivamente sfocati o a pixel per garantire risultati più precisi. Se l’immagine o i fotogrammi del video contengono informazioni testuali importanti, verifica che il testo sia leggibile e non troppo piccolo. Evita di ritagliare parti del contesto visivo fondamentali solo per ingrandire il testo.

I modelli Amazon Nova consentono di includere un singolo video nel payload, che puoi fornire in formato base64 o tramite un URI Amazon S3. Quando utilizzi il metodo base64, la dimensione complessiva del payload deve essere inferiore a 25 MB. Tuttavia, puoi specificare un URI Amazon S3 per la comprensione di immagini, video e documenti. Con Amazon S3 puoi utilizzare il modello con file di dimensioni maggiori e con più file multimediali senza dover rispettare il limite della dimensione complessiva del payload. Amazon Nova può analizzare il video di input e rispondere a domande, classificare il video e riassumere le informazioni in esso contenute in base alle istruzioni fornite.

I modelli Amazon Nova consentono di includere più immagini nel payload. La dimensione complessiva del payload non può superare i 25 MB. I modelli Amazon Nova possono analizzare le immagini trasmesse e rispondere a domande, classificare le immagini e riassumerle in base alle istruzioni fornite.

Informazioni sull’immagine
Tipo di file multimediale	Formati di file supportati	Metodo di input
Immagine	PNG, JPG, JPEG, GIF, WebP	Base64 e URI Amazon S3

Informazioni sul video
Formato	Tipo MIME	Codifica video
MKV	video/x-matroska	H.264
MOV	video/quicktime	H.264 H.265 ProRES
MP4	video/mp4	DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Parte 2 VP9
WEBM	video/webm	VP8 VP9
FLV	video/x-flv	FLV1
MPEG	video/mpeg	MPEG-1
MPG	video/mpg	MPEG-1
WMV	video/wmv	MSMPEG4v3 (MP43)
3GPP	video/3gpp	H.264

Non ci sono differenze nel numero di token di input video, indipendentemente dal fatto che il video venga trasmesso come base64 (purché rispetti i limiti di dimensione) o tramite una posizione Amazon S3.

Tieni presente che, per il formato di file 3gp, il campo “format” trasmesso alla richiesta API deve avere il formato “three_gp”.

Quando utilizzi Amazon S3, assicurati che i metadati “Content-Type” siano impostati sul tipo MIME corretto per il video.

Argomenti

Video di lunga durata e con molto movimento

Il modello esegue la comprensione di video tramite il campionamento dei fotogrammi del video alla frequenza base di 1 fotogramma al secondo (FPS). Questo valore è un equilibrio tra l’acquisizione dei dettagli nel video e il consumo dei token di input utilizzati, che influisce sul costo, sulla latenza e sulla lunghezza massima del video. Il campionamento di un evento al secondo dovrebbe essere sufficiente per casi d’uso generali, ma potrebbe non offrire buoni risultati in altri casi d’uso che prevedono video con molto movimento come i video sportivi.

Per gestire video di durata maggiore, la frequenza di campionamento diminuisce, per video più lunghi di 16 minuti, a un valore fisso di 960 fotogrammi, distribuiti in tutta la durata del video per Amazon Nova Lite e Amazon Nova Pro. Ciò significa che, più la lunghezza di un video supera i 16 minuti, minore sarà la FPS e minori saranno i dettagli catturati. In questo modo è possibile utilizzare casi d’uso come il riepilogo di video più lunghi, ma con il peggioramento dei problemi riscontrati nei video con molto movimento in cui i dettagli sono importanti. Per Amazon Nova Premier, la frequenza di campionamento di 1 FPS viene applicata fino a un limite di 3.200 fotogrammi.

In molti casi, puoi ottenere un campionamento di 1 FPS per video più lunghi utilizzando procedure di pre-elaborazione e più chiamate. Il video può essere suddiviso in segmenti più piccoli, ognuno dei quali può essere analizzato utilizzando le funzionalità multi-modello del modello. Le risposte vengono aggregate e l'utilizzo di un passaggio finale text-to-text genera una risposta finale. Tieni presente che, segmentando i video in questo modo, può verificarsi una perdita di contesto. Si tratta di un compromesso simile al chunking per i casi d’uso di generazione potenziata da recupero dati (RAG). Vengono trasferite anche molte delle stesse tecniche di mitigazione, come la finestra scorrevole.

Tieni presente che la segmentazione del video potrebbe ridurre anche la latenza poiché l’analisi viene eseguita in parallelo, ma può generare un numero di token di input significativamente superiore, il che può influire sui costi.

Latenza

I video possono essere di grandi dimensioni. Anche se forniamo strumenti per gestire file fino a 1 GB caricandoli su Amazon S3, rendendo così molto snelli i payload di invocazione, i modelli devono comunque elaborare un numero potenzialmente elevato di token. Se utilizzi chiamate Amazon Bedrock sincrone come Invoke o Converse, assicurati che l’SDK sia configurato con un timeout adeguato.

A prescindere da ciò, l’URI Amazon S3 è il metodo preferito quando la latenza costituisce un fattore determinante. Un’altra strategia è segmentare i video come descritto nella sezione precedente. Anche la pre-elaborazione di video ad alta risoluzione e con un’elevata frequenza di fotogrammi può consentire di risparmiare larghezza di banda ed elaborazione per la dimensione del servizio, riducendo la latenza.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Risoluzione dei problemi di chiamata agli strumenti

Tecniche di creazione di prompt per la comprensione della visione