Comprensione dei video - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Comprensione dei video

Nota

Questa documentazione è per Amazon Nova versione 1. Per la guida alla comprensione dei video di Amazon Nova 2, visita Video understanding.

I modelli Amazon Nova consentono di includere un singolo video nel payload, che puoi fornire in formato base64 o tramite un URI Amazon S3. Quando utilizzi il metodo base64, la dimensione complessiva del payload devono rimanere entro i 25 MB. Tuttavia, puoi specificare un URI Amazon S3 per la comprensione dei video. Questo approccio permette di sfruttare il modello per video più lunghi (fino a 1 GB) senza essere vincolati dalla limitazione complessiva delle dimensioni del payload. I modelli Amazon Nova possono analizzare il video trasmesso e rispondere a domande, classificare il video e riassumere le informazioni in esso contenute in base alle istruzioni fornite.

Tipo di file multimediale

Formati di file supportati

Metodo di input

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Consigliato per payload di dimensioni inferiori a 25 MB.

URI Amazon S3

Consigliato per payload superiori a 25 MB e fino a 2 GB. I singoli file devono avere una dimensione massima di 1 GB.

Non ci sono differenze nel numero di token di input video, indipendentemente dal fatto che il video venga trasmesso come base64 (purché rispetti i limiti di dimensione) o tramite una posizione Amazon S3.

Tieni presente che, per il formato di file 3GP, il campo “format” trasmesso alla richiesta API deve avere il formato “three_gp”.

Quando usi Amazon S3, assicurati di impostare i metadati “Content-Type” sul tipo MIME corretto per il video.

Informazioni sulle dimensioni del video

Le funzionalità di comprensione del video di Amazon Nova supportano le proporzioni multiple. Tutti i video vengono ridimensionati con distorsione (verso l’alto o verso il basso, in base all’input) a dimensioni quadrate di 672*672 prima di essere inviati al modello. Il modello usa una strategia di campionamento dinamico basata sulla lunghezza del video. Per Amazon Nova Lite e Amazon Nova Pro, con video di durata inferiore o uguale a 16 minuti, viene usata una frequenza di campionamento di 1 fotogramma al secondo (FPS). Per i video di durata superiore a 16 minuti, invece, la frequenza di campionamento diminuisce per mantenere un campionamento costante di 960 fotogrammi, con la frequenza di campionamento dei fotogrammi che varia di conseguenza. Questo approccio è pensato per fornire una comprensione dei video più accurata a livello di scena per video più brevi rispetto a contenuti video più lunghi. Consigliamo di mantenere la durata del video inferiore a 1 ora per i movimenti ridotti e inferiore a 16 minuti per qualsiasi movimento più intenso. Per Amazon Nova Premier, la frequenza di campionamento di 1 FPS viene applicata fino a un limite di 3.200 fotogrammi.

Non dovrebbero esserci differenze tra l’analisi di una versione 4K e una versione Full HD di un video. Allo stesso modo, poiché la frequenza di campionamento è al massimo di 1 FPS, un video a 60 FPS dovrebbe funzionare quanto un video a 30 FPS. A causa del limite di 1 GB per le dimensioni dei video, l’uso di una risoluzione e di un FPS superiori a quelli richiesti non è vantaggioso e limiterà la durata del video che rientra in tale limite di dimensioni. Potresti voler pre-elaborare video più lunghi di 1 GB.

Token video

La lunghezza del video è il principale fattore che influisce sul numero di token generati. Per calcolare il costo approssimativo, devi moltiplicare il numero stimato di token video per il prezzo per token del modello specifico usato.

La seguente tabella fornisce alcune approssimazioni del campionamento dei frame e dell’uso dei token per lunghezza video per Amazon Nova Pro, Lite e Micro:

video_duration

10 sec

30 sec

16 minuti

20 minuti

30 minuti

45 minuti

1 ora

1,5 ore

frames_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0,755

0,5

0,35556

0,14

0,096

Numero stimato di token

2.880

8.640

276.480

276.480

276.480

276.480

276.480

276.480

La seguente tabella fornisce alcune approssimazioni del campionamento dei frame e dell’uso dei token per lunghezza video per Amazon Nova Premier:

video_duration

10 sec

30 sec

16 min

20 minuti

30 minuti

45 minuti

1 ora

1,5 ore

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Numero stimato di token

2.880

8.640

276.480

345.600

518.400

777.600

La tabella seguente fornisce alcune approssimazioni del campionamento dei frame e dell'utilizzo dei token per lunghezza video per Amazon Nova Lite 1.5

video_duration

10 sec

30 sec

16 min

20 minuti

30 minuti

45 minuti

1 ora

1,5 ore

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Numero stimato di token

2.880

8.640

276.480

345.600

518.400

777.600