Vidéos longues et à mouvement rapide Latence

Bonnes pratiques en matière de compréhension visuelle

Note

Cette documentation concerne la version 1 d'Amazon Nova. Pour plus d'informations sur la manière de favoriser la compréhension multimodale dans Amazon Nova 2, consultez Proposer des entrées multimodales.

La famille de modèles Amazon Nova est dotée de nouvelles capacités visuelles qui lui permettent de comprendre et d’analyser des images et des vidéos, ouvrant ainsi de nouvelles perspectives pour l’interaction multimodale. Les sections suivantes présentent des directives pour travailler avec des images et des vidéos dans Amazon Nova. Elles comprennent les bonnes pratiques, des exemples de code et les limitations pertinentes à prendre en compte.

Plus les images ou les vidéos que vous fournissez sont de haute qualité, plus les modèles auront de chances de comprendre avec précision les informations contenues dans le fichier multimédia. Assurez-vous que les images ou les vidéos sont claires et exemptes de flou ou de pixellisation excessive afin de garantir des résultats plus précis. Si les images ou les vidéos contiennent des informations textuelles importantes, vérifiez que le texte est lisible et pas trop petit. Évitez de recadrer le contexte visuel clé uniquement pour agrandir le texte.

Les modèles Amazon Nova vous permettent d’inclure une seule vidéo dans les données utiles, qui peut être fournie au format base64 ou via une URI Amazon S3. Lorsque vous utilisez la méthode base64, la taille totale des données utiles doit être inférieure à 25 Mo. Cependant, vous pouvez spécifier une URI Amazon S3 pour la compréhension des images, des vidéos et des documents. L’utilisation d’Amazon S3 vous permet d’exploiter le modèle pour des fichiers plus volumineux et plusieurs fichiers multimédias, sans être limité par la taille globale des données utiles. Amazon Nova peut analyser la vidéo d’entrée et répondre à des questions, classer une vidéo et résumer les informations contenues dans la vidéo en fonction des instructions fournies.

Les modèles Amazon Nova vous permettent d’inclure plusieurs images dans les données utiles. La taille totale des données utiles ne peut pas dépasser 25 Mo. Les modèles Amazon Nova peuvent analyser les images transmises et répondre à des questions, classer une image et résumer des images en fonction des instructions fournies.

Informations sur l’image
Type de fichier multimédia	Formats de fichier pris en charge	Méthode de saisie
Image	PNG, JPG, JPEG, GIF, WebP	Base64 et URI Amazon S3

Informations sur la vidéo
Format	Type MIME	Encodage vidéo
MKV	video/x-matroska	H.264
MOV	video/quicktime	H.264 H.265 ProRES
MP4	video/mp4	DIVX/XVID H.264 H.265 J2K () JPEG2000 MPEG-2 MPEG-4 Part 2 VP9
WEBM	video/webm	VP8 VP9
FLV	video/x-flv	FLV1
MPEG	video/mpeg	MPEG-1
MPG	video/mpg	MPEG-1
WMV	video/wmv	MSMPEG4v3 (MP43)
3GPP	video/3gpp	H.264

Il n’y a aucune différence dans le nombre de jetons d’entrée vidéo, que la vidéo soit transmise au format base64 (à condition qu’elle respecte les contraintes de taille) ou via un emplacement Amazon S3.

Veuillez noter que pour le format de fichier 3gp, le champ « format » transmis dans la demande API doit être au format « three_gp ».

Lorsque vous utilisez Amazon S3, assurez-vous que vos métadonnées « Content-Type » sont définies sur le type MIME correct pour la vidéo

Rubriques

Vidéos longues et à mouvement rapide

Le modèle comprend la vidéo en échantillonnant les images vidéo à une fréquence de base de 1 image par seconde (FPS). Il s’agit d’un équilibre entre la capture des détails dans la vidéo et la consommation des jetons d’entrée utilisés, ce qui a une incidence sur le coût, la latence et la durée maximale de la vidéo. Bien que l’échantillonnage d’un événement par seconde devrait suffire pour les cas d’utilisation généraux, certains cas d’utilisation sur des vidéos à mouvement rapide, telles que les vidéos sportives, peuvent ne pas fonctionner correctement.

Afin de traiter des vidéos plus longues, le taux d’échantillonnage est réduit pour les vidéos de plus de 16 minutes à un nombre fixe de 960 images, espacées sur toute la durée de la vidéo pour Amazon Nova Lite et Amazon Nova Pro. Cela signifie que plus une vidéo dépasse 16 minutes, plus le nombre d’images par seconde est faible et moins les détails sont capturés. Cela permet des cas d’utilisation tels que le résumé de vidéos plus longues, mais aggrave les problèmes liés aux vidéos à mouvement rapide où les détails sont importants. Pour Amazon Nova Premier, le taux d’échantillonnage de 1 FPS est appliqué jusqu’à une limite de 3 200 images.

Dans de nombreux cas, vous pouvez obtenir un échantillonnage de 1 image par seconde sur des vidéos plus longues en utilisant des étapes de prétraitement et plusieurs appels. La vidéo peut être divisée en segments plus petits, puis chaque segment est analysé à l’aide des capacités multi-modèles du modèle. Les réponses sont agrégées et une dernière étape d'utilisation text-to-text génère une réponse finale. Veuillez noter qu’il peut y avoir une perte de contexte lorsque les vidéos sont segmentées de cette manière. Cela s’apparente aux compromis liés au découpage en morceaux pour les cas d’utilisation RAG et bon nombre des mêmes techniques d’atténuation s’appliquent bien, comme la fenêtre glissante.

Veuillez noter que la segmentation de la vidéo peut également réduire la latence, car l’analyse est effectuée en parallèle, mais elle peut générer un nombre beaucoup plus important de jetons d’entrée, ce qui a une incidence sur le coût.

Latence

Les vidéos peuvent être de grande taille. Bien que nous fournissions des moyens de traiter des fichiers pouvant atteindre 1 Go en les chargeant sur Amazon S3, ce qui rend les données utiles d’invocation très légères, les modèles doivent tout de même traiter un nombre potentiellement important de jetons. Si vous utilisez des appels Amazon Bedrock synchrones tels que Invoquer ou Converse, assurez-vous que votre kit SDK est configuré avec un délai d’expiration approprié.

Quoi qu’il en soit, l’URI Amazon S3 est la méthode préférée lorsque la latence est un facteur important. La segmentation des vidéos comme décrit dans la section précédente est une autre stratégie. Le prétraitement des vidéos haute résolution et à fréquence d’images élevée peut également permettre d’économiser de la bande passante et de réduire le traitement sur la taille du service, ce qui diminue la latence.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Dépannage des appels d’outils

Techniques d’invite de compréhension visuelle