View a markdown version of this page

Compréhension multimodale - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Compréhension multimodale

Amazon Nova 2 Lite peut comprendre plusieurs modalités de saisie. Ce modèle est doté de fonctionnalités de vision qui lui permettent de comprendre et d'analyser des images, des documents, des vidéos et des discours afin de déduire des questions et d'y répondre en fonction du contenu fourni.

Cette section décrit les directives relatives à l'utilisation d'images, de documents et de vidéos dans Amazon Nova, notamment les stratégies de prétraitement utilisées, les exemples de code et les limites pertinentes à prendre en compte.

Types de contenu pris en charge par modalité

Les informations suivantes détaillent les formats de fichier pris en charge par chaque type de fichier multimédia et la méthode de saisie acceptée.

Type de fichier multimédia Formats de fichiers pris en charge Méthode de saisie Limites de taille Nombre d’objets
Image

PNG, JPEG, GIF, WebP

Remarque : Si vous utilisez un fichier GIF ou WebP animé, seule la première image sera utilisée.

Intégrer des données dans la demande

Si vous utilisez l'API Converse, codez les données sous forme d'octets.

Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64.

25 Mo 5
URI Amazon S3 2 Go au total 1 000
Vidéo MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP

Intégrer des données dans la demande

Si vous utilisez l'API Converse, codez les données sous forme d'octets.

Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64.

25 Mo 1
URI Amazon S3 1 Go 1

Compréhension des images

La compréhension des images fait référence à la capacité d'Amazon Nova à traiter une image et à effectuer diverses tâches de vision par ordinateur, telles que :

  • Réalisation de la détection d'objets

  • Répondre aux questions sur les images grâce à la fonction de réponse visuelle aux questions (VQA)

  • Classification et synthèse des images

  • Réalisation de la détection des boîtes de délimitation

  • Reconnaissance optique de caractères (OCR)

  • Comptage d'objets

Les images peuvent être incluses sous forme d'invite transmise à l'API sous forme de tableaux d'octets ou via l'URI S3.

Informations techniques clés

Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.

Dimensionnement et redimensionnement de l'image

Amazon Nova redimensionne automatiquement les images pour optimiser la qualité et les performances :

  • Détermine le rapport hauteur/largeur le plus proche (tel que 1:1, 1:2, 2:3, etc.)

  • Redimensionne de manière à ce qu'un côté ≥ 896 pixels ou corresponde au côté le plus court de l'image d'origine, selon le plus grand des deux

  • Maintient le rapport hauteur/largeur

  • Supporte une résolution allant jusqu'à 8 000 × 8 000 pixels

Coordonnées du cadre de délimitation :

  • Utile pour des tâches telles que l'identification d'éléments dans les captures d'écran ou la mise à la base d'images

  • Les coordonnées peuvent être redimensionnées pour correspondre aux dimensions d'origine de l'image lors du post-traitement

  • Renvoie les cases de délimitation sur une échelle de [0, 1000].

Estimation du jeton d'image

Amazon Nova convertit chaque image en jetons à des fins de traitement. Le nombre de jetons dépend de la résolution et du rapport hauteur/largeur de l'image.

Voici des exemples de nombres approximatifs de jetons basés sur la résolution de l'image :

Résolution de l'image Tokens estimés
900 x 450 515
900 x 900 ~1 035
1400 x 900 ~1 600
1 800 x 900 ~2 060
1300 x 1300 ~2 155

Exemples de compréhension d’images

Pour savoir comment intégrer des données d'image directement dans la demande, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes

Pour charger des fichiers image volumineux ou plusieurs fichiers image, dont la charge utile globale est supérieure à 25 Mo, utilisez Amazon S3. Pour un exemple complet de l'utilisation des références d'URI Amazon S3 pour la saisie d'images, reportez-vous à l'exemple de saisie multimodale à l'aide de l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes

Note

Lorsque vous utilisez S3, assurez-vous que le service Amazon Bedrock est autorisé à accéder au bucket et à l'objet.

Principales limites

La liste suivante décrit les limites actuelles des modèles de compréhension des images :

  • Compréhension multilingue des images : les modèles ont une compréhension limitée des images et des images vidéo multilingues et peuvent avoir des difficultés ou des hallucinations lors de tâches simples.

  • Identification des personnes : les modèles Amazon Nova 2 ne permettent pas d'identifier ou de nommer des personnes sur des images, des documents ou des vidéos.

  • Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent rencontrer des difficultés avec les tâches qui nécessitent une localisation précise ou une analyse de la disposition.

  • Petit texte dans les images et les vidéos : si le texte de l'image ou de la vidéo est trop petit, envisagez d'augmenter la taille relative du texte de l'image en le recadrant dans la section appropriée tout en préservant le contexte nécessaire.

Compréhension des vidéos

La compréhension vidéo fait référence à la capacité d'Amazon Nova à traiter les entrées vidéo et à effectuer diverses tâches de compréhension vidéo, telles que :

  • Analyse des images clés et synthèse du contenu vidéo

  • Répondre aux questions concernant les segments vidéo (réponse aux questions vidéo ou assurance qualité vidéo)

  • Détection et suivi d'objets sur plusieurs images

  • Identification des actions, des scènes et des événements

  • Réalisation d'une segmentation temporelle pour localiser des moments spécifiques

  • Génération de légendes descriptives ou de résumés de séquences vidéo

Informations techniques clés

Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.

Informations sur la taille de la vidéo

Les fonctionnalités de compréhension vidéo d'Amazon Nova prennent en charge le format multiformat. Toutes les vidéos sont redimensionnées avec distorsion (vers le haut ou vers le bas, en fonction du rapport hauteur/largeur d'origine) à 672 × 672 carrés avant d'être saisies dans le modèle.

Le modèle utilise une stratégie d'échantillonnage dynamique basée sur la durée de la vidéo. Pour les vidéos d'une durée de 16 minutes ou moins, Amazon Nova 2 Lite échantillonne 1 image par seconde (FPS). Pour les vidéos de plus de 16 minutes, le taux d'échantillonnage diminue pour maintenir un échantillonnage constant de 960 images, le taux d'échantillonnage variant en conséquence. Cette approche est conçue pour fournir une compréhension plus précise de la vidéo au niveau de la scène pour les vidéos plus courtes par rapport aux contenus vidéo plus longs.

Nous vous recommandons de limiter la durée de la vidéo à moins d'une heure pour les vidéos en faible intensité et à moins de 16 minutes pour les vidéos en mouvement élevé.

Il ne devrait y avoir aucune différence entre l’analyse d’une version 4k d’une vidéo et celle d’une version Full HD. De même, comme le taux d'échantillonnage est de 1 images par seconde, une vidéo à 60 images par seconde devrait fonctionner aussi bien qu'une vidéo à 30 images par seconde. L'utilisation d'une résolution et d'un nombre d'images par seconde supérieurs à ce qui est requis n'est pas avantageuse en raison de la limite de 1 Go de taille vidéo. Cela limitera la longueur de la vidéo correspondant à cette limite de taille. Vous souhaiterez peut-être prétraiter des vidéos de plus de 1 Go.

Jetons vidéo

La durée de la vidéo est le principal facteur influant sur le nombre de jetons générés. Pour calculer le coût approximatif, multipliez le nombre estimé de jetons vidéo par le prix par jeton pour le modèle spécifique utilisé.

Le tableau suivant fournit quelques approximations de l'échantillonnage d'images et de l'utilisation des jetons par durée de vidéo pour Amazon Nova 2 Lite :

Durée de la vidéo Cadres à échantillonner Fréquence d'échantillonnage par seconde Jetons approximatifs
10 secondes 10 1 2 880
30 secondes 30 1 8 640
16 minutes 960 1 276 480
20 minutes 1200 1 345 600
30 minutes 1800 1 518 400
45 minutes 2700 1 777 600

Exemples de compréhension de vidéos

Pour voir comment intégrer des données vidéo directement dans la demande, reportez-vous à l'exemple d'entrée multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes

Pour un exemple d'utilisation des références d'URI S3 dans l'entrée vidéo, reportez-vous à l'exemple d'entrée multimodale utilisant l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes

Principales limites

Voici les principales limites du modèle, pour lesquelles la précision et les performances du modèle peuvent ne pas être garanties :

  • Aucun support audio : les modèles Amazon Nova sont actuellement formés pour traiter et comprendre le contenu vidéo uniquement sur la base des images visuelles. Les pistes audio des vidéos ne sont ni traitées ni analysées.

  • Compréhension multilingue des images : les modèles Amazon Nova ont une compréhension limitée des images et des images vidéo multilingues. Ils peuvent avoir des difficultés ou avoir des hallucinations lors de tâches simples.

  • Identification des personnes : les modèles Amazon Nova ne prennent pas en charge la capacité d’identifier ou de nommer des personnes dans des images, des documents ou des vidéos. Les modèles ne fourniront pas les noms ou les identités des personnes dans le contenu visuel.

  • Petit texte dans les vidéos : si le texte de l'image ou de la vidéo est trop petit, pensez à augmenter la taille relative du texte de la vidéo.

  • Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent avoir du mal à effectuer des tâches qui nécessitent une compréhension précise de la position des objets, des distances ou des relations spatiales dans les vidéos.

  • Contenu inapproprié : les modèles Amazon Nova ne traitent pas les images inappropriées ou explicites qui enfreignent la politique d’utilisation acceptable.

  • Applications médicales : en raison de la nature sensible de ces artefacts, même si les modèles Amazon Nova peuvent fournir une analyse générale de certaines images ou vidéos de santé, nous ne recommandons pas leur utilisation pour interpréter des images médicales sensibles telles que des scans diagnostiques complexes. La réponse des modèles Amazon Nova ne doit jamais être considérée comme un substitut à un avis médical professionnel.

Compréhension des documents

La fonctionnalité de compréhension des documents d'Amazon Nova vous permet d'inclure des documents PDFs complets (fichiers Word, feuilles de calcul, etc.) dans le cadre de votre demande. Cela permet au modèle d'analyser, de résumer, d'extraire des informations ou de répondre à des questions concernant le contenu du document.

Amazon Nova 2 Lite peut interpréter à la fois le texte et les éléments visuels (tels que des graphiques ou des tableaux) contenus dans ces documents. Cela permet des cas d'utilisation tels que la réponse à des questions, la synthèse et l'analyse de longs rapports ou de documents numérisés.

Les principales fonctionnalités de compréhension des documents incluent une très grande fenêtre contextuelle (1 million de jetons) pour les documents longs et la possibilité de gérer plusieurs documents en une seule requête.

Modalités et formats de documents pris en charge

Amazon Nova fait la distinction entre deux types de saisie de documents :

  • Les documents textuels, tels que les fichiers TXT, CSV, HTML, Markdown ou DOC, sont traités principalement pour leur contenu textuel. Amazon Nova comprend le texte de ces documents et en extrait les informations.

  • Les documents multimédias, tels que les fichiers PDF ou DOCX, peuvent contenir des mises en page complexes, des images, des graphiques ou des graphiques intégrés. Pour les documents multimédias, Amazon Nova utilise une compréhension basée sur la vision pour interpréter le contenu visuel, tel que les graphiques, les tableaux, les diagrammes ou les captures d'écran, parallèlement au texte du document.

Les formats de fichiers pris en charge incluent les types de documents courants tels que :

  • Fichiers texte brut et texte structuré : CSV, TXT

  • Feuilles de calcul : XLS, XLSX, HTML, Markdown

  • Formats d'image standard (pour les images contenues dans des documents) : PNG, JPG, GIF, WebP

  • Formats de document : DOC, DOCX, PDF

  • PDFs qui contiennent des encodages d'image, tels que CMYK ou SVG, ne sont pas pris en charge.

Limites de taille des documents et directives d'utilisation

Contrainte

Limite

Nombre maximum de documents

Jusqu'à 5 documents par demande (s'applique à la fois au téléchargement direct et à Amazon S3)

Taille de document basée sur le texte

Chaque document texte doit être égal ou inférieur à 4,5 Mo

Taille du document basée sur le support

Pour les fichiers PDF et DOCX, il n'existe aucune limite de taille de fichier individuelle. Lorsque vous utilisez le téléchargement direct, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 25 Mo. Lorsque vous utilisez Amazon S3, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 2 Go.

Contenu PDF non pris en charge

PDFs qui contiennent des profils de couleurs CMJN ou des images SVG ne sont pas pris en charge.

Tarification

Amazon Nova utilise une tarification basée sur les jetons : vous payez pour les jetons d'entrée (tout ce que vous envoyez, y compris les documents joints) et les jetons de sortie (la réponse du modèle).

Estimation des jetons pour PDFs : Pour la planification, supposons une page PDF standard de 8,5 x 11 pouces ≈ 2 560 jetons d'entrée (cette estimation couvre à la fois le texte et les éléments visuels d'une page type).

Exemples : utilisation de la compréhension des documents de Nova via l'API et S3

Pour un exemple de son utilisation via une API, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (sans streaming) dans le. Bibliothèque de codes

Pour un exemple de son utilisation via S3, reportez-vous à l'exemple d'entrée multimodale à l'aide de l'URI S3 - API Converse (sans streaming) dans le. Bibliothèque de codes