Comprensión de videos - Amazon Nova

Comprensión de videos

Los modelos de Amazon Nova permiten incluir un solo video en la carga útil, que puede proporcionarse en formato base64 o mediante un URI de Amazon S3. Al utilizar el método base64, el tamaño total de la carga útil debe permanecer dentro de los 25 MB. Sin embargo, puede especificar un URI de Amazon S3 para la comprensión de video. Este enfoque le permite aprovechar el modelo para videos más largos (de hasta 1 GB de tamaño) sin verse limitado por la restricción general del tamaño de la carga útil. Los modelos de Amazon Nova pueden analizar el video proporcionado y responder a preguntas, clasificar un video y resumir la información que contiene según las instrucciones proporcionadas.

Tipo de archivo multimedia

Formatos de archivo compatibles

Método de entrada

Video

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Recomendado para cargas útiles de menos de 25 MB

URI de Amazon S3

Recomendado para cargas útiles superiores a 25 MB y de hasta 2 GB. Los archivos individuales deben ser de 1 GB como máximo.

No hay diferencias en el recuento de tokens de entrada de video, independientemente de si el video se pasa en base64 (siempre que se ajuste a las restricciones de tamaño) o a través de una ubicación de Amazon S3.

Tenga en cuenta que, para el formato de archivo 3GP, el campo “format” pasado en la solicitud de la API debe tener el formato “three_gp”.

Cuando utilice Amazon S3, asegúrese de configurar los metadatos “Content-Type” con el tipo MIME correcto para el video.

Información sobre el tamaño del video

Las capacidades de comprensión de videos de Amazon Nova admiten múltiples relaciones de aspecto. Todos los videos se redimensionan con distorsión (hacia arriba o hacia abajo, según la entrada) hasta alcanzar dimensiones cuadradas de 672 x 672 antes de pasarlos al modelo. El modelo utiliza una estrategia de muestreo dinámico según la duración del video. En el caso de Amazon Nova Lite y Amazon Nova Pro, para videos de 16 minutos o menos se emplea una frecuencia de muestreo de 1 fotograma por segundo (FPS). Sin embargo, para los videos de más de 16 minutos, la frecuencia de muestreo disminuye para mantener un muestreo constante de 960 fotogramas, variando la frecuencia de muestreo de fotogramas en consecuencia. Este enfoque está diseñado para proporcionar una comprensión más precisa del video a nivel de escena en los videos más cortos en comparación con los de mayor duración. Le recomendamos que mantenga la duración del video en menos de 1 hora en cámara lenta, y en menos de 16 minutos para cualquier contenido con mayor movimiento. Para Amazon Nova Premier, la frecuencia de muestreo de 1 FPS se aplica hasta un límite de 3200 fotogramas.

No debería haber ninguna diferencia al analizar una versión 4K de un video y una versión Full HD. Del mismo modo, dado que la frecuencia de muestreo es como máximo de 1 FPS, un video de 60 FPS debería funcionar tan bien como un video de 30 FPS. Debido al límite de 1 GB en el tamaño del video, utilizar una resolución y un FPS superiores a los requeridos no es beneficioso y limitará la duración del video que se ajusta a ese límite de tamaño. Es posible que desee preprocesar los videos de más de 1 GB.

Tokens de video

La duración del video es el factor principal que afecta al número de tokens generados. Para calcular el costo aproximado, debe multiplicar el número estimado de tokens de video por el precio por token del modelo específico que utilice.

En la siguiente tabla se proporcionan algunas aproximaciones del muestreo de fotogramas y la utilización de tokens por duración de video para Amazon Nova Pro, Lite y Micro:

Duración del video

10 s

30 s

16 min

20 min

30 min

45 min

1 hora

1,5 horas

Fotogramas que se muestrean

10

30

960

960

960

960

960

960

FPS por velocidad de muestreo

1

1

1

0,755

0,5

0,35556

0,14

0,096

Recuento estimado de tokens

2880

8,640

276,480

276,480

276,480

276,480

276,480

276,480

En la siguiente tabla se proporcionan algunas aproximaciones del muestreo de fotogramas y la utilización de tokens según la duración del video para Amazon Nova Premier:

Duración del video

10 s

30 s

16 min

20 min

30 min

45 min

1 hora

1,5 horas

Fotogramas que se muestrean

10

30

960

1200

1800

2700

FPS por velocidad de muestreo

1

1

1

1

1

1

Recuento estimado de tokens

2880

8,640

276,480

345,600

518,400

777,600