Informations sur la taille des images Détection des cadres Conversion d’images en jetons

Compréhension des images

Note

Cette documentation concerne la version 1 d'Amazon Nova. Pour consulter le guide de compréhension des images Amazon Nova 2, consultez Image understanding.

Les modèles Amazon Nova vous permettent d’inclure plusieurs images dans les données utiles, avec une limite totale de 25 Mo. Cependant, vous pouvez spécifier une URI Amazon S3 contenant vos images pour la compréhension des images. Cette approche vous permet d’utiliser le modèle pour des images plus grandes et plus nombreuses sans être limité par la limite de 25 Mo des données utiles. Les modèles Amazon Nova peuvent analyser les images transmises et répondre à des questions, classer les images et les résumer en fonction des instructions que vous fournissez.

Informations sur la taille des images

Afin de fournir les meilleurs résultats possibles, Amazon Nova redimensionne automatiquement les images d’entrée à la hausse ou à la baisse en fonction de leur rapport d’aspect et de leur résolution d’origine. Pour chaque image, Amazon Nova identifie d’abord le rapport d’aspect le plus proche parmi 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 2:3, 2:4 et leurs transpositions. L’image est ensuite redimensionnée de manière à ce qu’au moins un côté de l’image soit supérieur à 896 pixels ou à la longueur du côté le plus court de l’image d’origine, tout en conservant le rapport d’aspect le plus proche. La résolution maximale est de 8 000 x 8 000 pixels

Détection des cadres

Les modèles Amazon Nova Lite et Amazon Nova Pro sont entraînés à détecter avec précision les cadres dans les images. Cette capacité peut s’avérer précieuse lorsque l’objectif est d’obtenir les coordonnées d’un objet spécifique d’intérêt. La fonctionnalité de détection des cadres de sélection du modèle Amazon Nova en fait un candidat idéal pour les tâches d’ancrage d’images, permettant ainsi une meilleure compréhension des captures d’écran. Le modèle Amazon Nova génère des cadres de sélection à l’échelle [0, 1000), et une fois ces coordonnées obtenues, elles peuvent être redimensionnées en fonction des dimensions de l’image lors d’une étape de post-traitement.

Conversion d’images en jetons

Comme indiqué précédemment, les images sont redimensionnées afin d’optimiser l’extraction d’informations, tout en conservant le rapport d’aspect. Voici quelques exemples de dimensions d’images et de calculs approximatifs de jetons.

image_resolution (HxL ou LxH)	900 x 450	900 x 900	1400 x 900	1,8K x 900	1,3Kx1,3K
Nombre estimé de jetons	~800	~1300	~1800	~2400	~2600

Prenons par exemple une image de 800x400 et supposons que l’on veut estimer le nombre de jetons pour cette image. D’après les dimensions, pour conserver un rapport d’aspect de 1:2, la résolution la plus proche est 900 x 450. Par conséquent, le nombre approximatif de jetons pour cette image est d’environ 800 jetons.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Prise en charge du multimodal

Limites de la compréhension des images