Compréhension des images - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Compréhension des images

Note

Cette documentation concerne la version 1 d'Amazon Nova. Pour consulter le guide de compréhension des images Amazon Nova 2, consultez Image understanding.

Les modèles Amazon Nova vous permettent d’inclure plusieurs images dans les données utiles, avec une limite totale de 25 Mo. Cependant, vous pouvez spécifier une URI Amazon S3 contenant vos images pour la compréhension des images. Cette approche vous permet d’utiliser le modèle pour des images plus grandes et plus nombreuses sans être limité par la limite de 25 Mo des données utiles. Les modèles Amazon Nova peuvent analyser les images transmises et répondre à des questions, classer les images et les résumer en fonction des instructions que vous fournissez.

Informations sur la taille des images

Afin de fournir les meilleurs résultats possibles, Amazon Nova redimensionne automatiquement les images d’entrée à la hausse ou à la baisse en fonction de leur rapport d’aspect et de leur résolution d’origine. Pour chaque image, Amazon Nova identifie d’abord le rapport d’aspect le plus proche parmi 1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 1:7, 1:8, 1:9, 2:3, 2:4 et leurs transpositions. L’image est ensuite redimensionnée de manière à ce qu’au moins un côté de l’image soit supérieur à 896 pixels ou à la longueur du côté le plus court de l’image d’origine, tout en conservant le rapport d’aspect le plus proche. La résolution maximale est de 8 000 x 8 000 pixels

Détection des cadres

Les modèles Amazon Nova Lite et Amazon Nova Pro sont entraînés à détecter avec précision les cadres dans les images. Cette capacité peut s’avérer précieuse lorsque l’objectif est d’obtenir les coordonnées d’un objet spécifique d’intérêt. La fonctionnalité de détection des cadres de sélection du modèle Amazon Nova en fait un candidat idéal pour les tâches d’ancrage d’images, permettant ainsi une meilleure compréhension des captures d’écran. Le modèle Amazon Nova génère des cadres de sélection à l’échelle [0, 1000), et une fois ces coordonnées obtenues, elles peuvent être redimensionnées en fonction des dimensions de l’image lors d’une étape de post-traitement.

Conversion d’images en jetons

Comme indiqué précédemment, les images sont redimensionnées afin d’optimiser l’extraction d’informations, tout en conservant le rapport d’aspect. Voici quelques exemples de dimensions d’images et de calculs approximatifs de jetons.

image_resolution (HxL ou LxH)

900 x 450

900 x 900

1400 x 900

1,8K x 900

1,3Kx1,3K

Nombre estimé de jetons

~800

~1300

~1800

~2400

~2600

Prenons par exemple une image de 800x400 et supposons que l’on veut estimer le nombre de jetons pour cette image. D’après les dimensions, pour conserver un rapport d’aspect de 1:2, la résolution la plus proche est 900 x 450. Par conséquent, le nombre approximatif de jetons pour cette image est d’environ 800 jetons.