Compréhension des vidéos - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Compréhension des vidéos

Note

Cette documentation concerne la version 1 d'Amazon Nova. Pour consulter le guide de compréhension des vidéos Amazon Nova 2, consultez l'article Présentation des vidéos.

Les modèles Amazon Nova vous permettent d’inclure une seule vidéo dans les données utiles, qui peut être fournie au format base64 ou via une URI Amazon S3. Lorsque vous utilisez la méthode base64, la taille totale des données utiles doit rester inférieure à 25 Mo. Cependant, vous pouvez spécifier une URI Amazon S3 pour la compréhension des vidéos. Cette approche vous permet d’utiliser le modèle pour des vidéos plus longues (jusqu’à 1 Go) sans être limité par la taille globale des données utiles. Les modèles Amazon Nova peuvent analyser la vidéo transmise et répondre à des questions, classer une vidéo et résumer les informations qu’elle contient en fonction des instructions fournies.

Type de fichier multimédia

Formats de fichier pris en charge

Méthode de saisie

Vidéo

MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Base64

Recommandé pour les données utiles de moins de 25 Mo

URI Amazon S3

Recommandé pour les données utiles de plus de 25 Mo et jusqu’à 2 Go. Les fichiers individuels doivent être de 1 Go ou moins.

Il n’y a aucune différence dans le nombre de jetons d’entrée vidéo, que la vidéo soit transmise au format base64 (à condition qu’elle respecte les contraintes de taille) ou via un emplacement Amazon S3.

Veuillez noter que pour le format de fichier 3GP, le champ « format » transmis dans la demande API doit être au format « three_gp ».

Lorsque vous utilisez Amazon S3, assurez-vous que les métadonnées « Content-Type » sont définies sur le type MIME correct pour la vidéo.

Informations sur la taille de la vidéo

Les capacités de compréhension vidéo d’Amazon Nova prennent en charge le format multi-aspect. Toutes les vidéos sont redimensionnées avec une distorsion (vers le haut ou vers le bas, en fonction de l’entrée) aux dimensions 672*672 carré avant d’être transmises au modèle. Le modèle utilise une stratégie d’échantillonnage dynamique basée sur la durée de la vidéo. Pour Amazon Nova Lite et Amazon Nova Pro, avec des vidéos d’une durée inférieure ou égale à 16 minutes, un taux d’échantillonnage de 1 image par seconde (FPS) est utilisé. Cependant, pour les vidéos de plus de 16 minutes, le taux d’échantillonnage diminue afin de maintenir un échantillonnage constant de 960 images, le taux d’échantillonnage des images variant en conséquence. Cette approche est conçue pour fournir une compréhension plus précise de la vidéo au niveau de la scène pour les vidéos plus courtes par rapport aux contenus vidéo plus longs. Nous vous recommandons de limiter la durée de la vidéo à moins d’une heure pour les mouvements lents et à moins de 16 minutes pour tout ce qui comporte des mouvements plus rapides. Pour Amazon Nova Premier, le taux d’échantillonnage de 1 FPS est appliqué jusqu’à une limite de 3 200 images.

Il ne devrait y avoir aucune différence entre l’analyse d’une version 4k d’une vidéo et celle d’une version Full HD. De même, comme le taux d’échantillonnage est au maximum de 1 FPS, une vidéo à 60 FPS devrait fonctionner aussi bien qu’une vidéo à 30 FPS. En raison de la limite de 1 Go pour la taille des vidéos, l’utilisation d’une résolution et d’un FPS supérieurs à ceux requis n’est pas avantageuse et limitera la durée de la vidéo qui peut être contenue dans cette limite de taille. Il peut être souhaitable de prétraiter les vidéos dont la taille est supérieure à 1 Go.

Jetons vidéo

La durée de la vidéo est le principal facteur qui influe sur le nombre de jetons générés. Pour calculer le coût approximatif, il convient de multiplier le nombre estimé de jetons vidéo par le prix par jeton du modèle spécifique utilisé.

Le tableau suivant fournit quelques approximations de l’échantillonnage des images et de l’utilisation des jetons par durée de vidéo pour Amazon Nova Pro, Lite et Micro :

video_duration

10 sec

30 sec

16 minutes

20 minutes

30 min

45 minutes

1 h

1,5 heure

frames_to_sample

10

30

960

960

960

960

960

960

sample_rate_fps

1

1

1

0,755

0.5

0,35556

0,14

0,096

Nombre estimé de jetons

2 880

8 640

276 480

276 480

276 480

276 480

276 480

276 480

Le tableau suivant fournit des approximations de l’échantillonnage d’images et de l’utilisation de jetons par durée de vidéo pour Amazon Nova Premier :

video_duration

10 sec

30 sec

16 minutes

20 minutes

30 min

45 minutes

1 h

1,5 heure

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Nombre estimé de jetons

2 880

8 640

276 480

345 600

518 400

777 600

Le tableau suivant fournit quelques approximations de l'échantillonnage des images et de l'utilisation des jetons par durée de vidéo pour Amazon Nova Lite 1.5

video_duration

10 sec

30 sec

16 minutes

20 minutes

30 min

45 minutes

1 h

1,5 heure

frames_to_sample

10

30

960

1200

1800

2700

sample_rate_fps

1

1

1

1

1

1

Nombre estimé de jetons

2 880

8 640

276 480

345 600

518 400

777 600