Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Compréhension multimodale
Amazon Nova 2 Lite peut comprendre plusieurs modalités de saisie. Ce modèle est doté de fonctionnalités de vision qui lui permettent de comprendre et d'analyser des images, des documents, des vidéos et des discours afin de déduire des questions et d'y répondre en fonction du contenu fourni.
Cette section décrit les directives relatives à l'utilisation d'images, de documents et de vidéos dans Amazon Nova, notamment les stratégies de prétraitement utilisées, les exemples de code et les limites pertinentes à prendre en compte.
Types de contenu pris en charge par modalité
Les informations suivantes détaillent les formats de fichier pris en charge par chaque type de fichier multimédia et la méthode de saisie acceptée.
| Type de fichier multimédia | Formats de fichiers pris en charge | Méthode de saisie | Limites de taille | Nombre d’objets |
|---|---|---|---|---|
| Image | PNG, JPEG, GIF, WebP Remarque : Si vous utilisez un fichier GIF ou WebP animé, seule la première image sera utilisée. |
Intégrer des données dans la demande Si vous utilisez l'API Converse, codez les données sous forme d'octets. Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64. |
25 Mo | 5 |
| URI Amazon S3 | 2 Go au total | 1 000 | ||
| Vidéo | MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP | Intégrer des données dans la demande Si vous utilisez l'API Converse, codez les données sous forme d'octets. Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64. |
25 Mo | 1 |
| URI Amazon S3 | 1 Go | 1 |
Compréhension des images
La compréhension des images fait référence à la capacité d'Amazon Nova à traiter une image et à effectuer diverses tâches de vision par ordinateur, telles que :
-
Réalisation de la détection d'objets
-
Répondre aux questions sur les images grâce à la fonction de réponse visuelle aux questions (VQA)
-
Classification et synthèse des images
-
Réalisation de la détection des boîtes de délimitation
-
Reconnaissance optique de caractères (OCR)
-
Comptage d'objets
Les images peuvent être incluses sous forme d'invite transmise à l'API sous forme de tableaux d'octets ou via l'URI S3.
Informations techniques clés
Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.
Dimensionnement et redimensionnement de l'image
Amazon Nova redimensionne automatiquement les images pour optimiser la qualité et les performances :
-
Détermine le rapport hauteur/largeur le plus proche (tel que 1:1, 1:2, 2:3, etc.)
-
Redimensionne de manière à ce qu'un côté ≥ 896 pixels ou corresponde au côté le plus court de l'image d'origine, selon le plus grand des deux
-
Maintient le rapport hauteur/largeur
-
Supporte une résolution allant jusqu'à 8 000 × 8 000 pixels
Coordonnées du cadre de délimitation :
-
Utile pour des tâches telles que l'identification d'éléments dans les captures d'écran ou la mise à la base d'images
-
Les coordonnées peuvent être redimensionnées pour correspondre aux dimensions d'origine de l'image lors du post-traitement
-
Renvoie les cases de délimitation sur une échelle de [0, 1000].
Estimation du jeton d'image
Amazon Nova convertit chaque image en jetons à des fins de traitement. Le nombre de jetons dépend de la résolution et du rapport hauteur/largeur de l'image.
Voici des exemples de nombres approximatifs de jetons basés sur la résolution de l'image :
| Résolution de l'image | Tokens estimés |
|---|---|
| 900 x 450 | 515 |
| 900 x 900 | ~1 035 |
| 1400 x 900 | ~1 600 |
| 1 800 x 900 | ~2 060 |
| 1300 x 1300 | ~2 155 |
Exemples de compréhension d’images
Pour savoir comment intégrer des données d'image directement dans la demande, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes
Pour charger des fichiers image volumineux ou plusieurs fichiers image, dont la charge utile globale est supérieure à 25 Mo, utilisez Amazon S3. Pour un exemple complet de l'utilisation des références d'URI Amazon S3 pour la saisie d'images, reportez-vous à l'exemple de saisie multimodale à l'aide de l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes
Note
Lorsque vous utilisez S3, assurez-vous que le service Amazon Bedrock est autorisé à accéder au bucket et à l'objet.
Principales limites
La liste suivante décrit les limites actuelles des modèles de compréhension des images :
-
Compréhension multilingue des images : les modèles ont une compréhension limitée des images et des images vidéo multilingues et peuvent avoir des difficultés ou des hallucinations lors de tâches simples.
-
Identification des personnes : les modèles Amazon Nova 2 ne permettent pas d'identifier ou de nommer des personnes sur des images, des documents ou des vidéos.
-
Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent rencontrer des difficultés avec les tâches qui nécessitent une localisation précise ou une analyse de la disposition.
-
Petit texte dans les images et les vidéos : si le texte de l'image ou de la vidéo est trop petit, envisagez d'augmenter la taille relative du texte de l'image en le recadrant dans la section appropriée tout en préservant le contexte nécessaire.
Compréhension des vidéos
La compréhension vidéo fait référence à la capacité d'Amazon Nova à traiter les entrées vidéo et à effectuer diverses tâches de compréhension vidéo, telles que :
-
Analyse des images clés et synthèse du contenu vidéo
-
Répondre aux questions concernant les segments vidéo (réponse aux questions vidéo ou assurance qualité vidéo)
-
Détection et suivi d'objets sur plusieurs images
-
Identification des actions, des scènes et des événements
-
Réalisation d'une segmentation temporelle pour localiser des moments spécifiques
-
Génération de légendes descriptives ou de résumés de séquences vidéo
Informations techniques clés
Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.
Informations sur la taille de la vidéo
Les fonctionnalités de compréhension vidéo d'Amazon Nova prennent en charge le format multiformat. Toutes les vidéos sont redimensionnées avec distorsion (vers le haut ou vers le bas, en fonction du rapport hauteur/largeur d'origine) à 672 × 672 carrés avant d'être saisies dans le modèle.
Le modèle utilise une stratégie d'échantillonnage dynamique basée sur la durée de la vidéo. Pour les vidéos d'une durée de 16 minutes ou moins, Amazon Nova 2 Lite échantillonne 1 image par seconde (FPS). Pour les vidéos de plus de 16 minutes, le taux d'échantillonnage diminue pour maintenir un échantillonnage constant de 960 images, le taux d'échantillonnage variant en conséquence. Cette approche est conçue pour fournir une compréhension plus précise de la vidéo au niveau de la scène pour les vidéos plus courtes par rapport aux contenus vidéo plus longs.
Nous vous recommandons de limiter la durée de la vidéo à moins d'une heure pour les vidéos en faible intensité et à moins de 16 minutes pour les vidéos en mouvement élevé.
Il ne devrait y avoir aucune différence entre l’analyse d’une version 4k d’une vidéo et celle d’une version Full HD. De même, comme le taux d'échantillonnage est de 1 images par seconde, une vidéo à 60 images par seconde devrait fonctionner aussi bien qu'une vidéo à 30 images par seconde. L'utilisation d'une résolution et d'un nombre d'images par seconde supérieurs à ce qui est requis n'est pas avantageuse en raison de la limite de 1 Go de taille vidéo. Cela limitera la longueur de la vidéo correspondant à cette limite de taille. Vous souhaiterez peut-être prétraiter des vidéos de plus de 1 Go.
Jetons vidéo
La durée de la vidéo est le principal facteur influant sur le nombre de jetons générés. Pour calculer le coût approximatif, multipliez le nombre estimé de jetons vidéo par le prix par jeton pour le modèle spécifique utilisé.
Le tableau suivant fournit quelques approximations de l'échantillonnage d'images et de l'utilisation des jetons par durée de vidéo pour Amazon Nova 2 Lite :
| Durée de la vidéo | Cadres à échantillonner | Fréquence d'échantillonnage par seconde | Jetons approximatifs |
|---|---|---|---|
| 10 secondes | 10 | 1 | 2 880 |
| 30 secondes | 30 | 1 | 8 640 |
| 16 minutes | 960 | 1 | 276 480 |
| 20 minutes | 1200 | 1 | 345 600 |
| 30 minutes | 1800 | 1 | 518 400 |
| 45 minutes | 2700 | 1 | 777 600 |
Exemples de compréhension de vidéos
Pour voir comment intégrer des données vidéo directement dans la demande, reportez-vous à l'exemple d'entrée multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes
Pour un exemple d'utilisation des références d'URI S3 dans l'entrée vidéo, reportez-vous à l'exemple d'entrée multimodale utilisant l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes
Principales limites
Voici les principales limites du modèle, pour lesquelles la précision et les performances du modèle peuvent ne pas être garanties :
-
Aucun support audio : les modèles Amazon Nova sont actuellement formés pour traiter et comprendre le contenu vidéo uniquement sur la base des images visuelles. Les pistes audio des vidéos ne sont ni traitées ni analysées.
-
Compréhension multilingue des images : les modèles Amazon Nova ont une compréhension limitée des images et des images vidéo multilingues. Ils peuvent avoir des difficultés ou avoir des hallucinations lors de tâches simples.
-
Identification des personnes : les modèles Amazon Nova ne prennent pas en charge la capacité d’identifier ou de nommer des personnes dans des images, des documents ou des vidéos. Les modèles ne fourniront pas les noms ou les identités des personnes dans le contenu visuel.
-
Petit texte dans les vidéos : si le texte de l'image ou de la vidéo est trop petit, pensez à augmenter la taille relative du texte de la vidéo.
-
Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent avoir du mal à effectuer des tâches qui nécessitent une compréhension précise de la position des objets, des distances ou des relations spatiales dans les vidéos.
-
Contenu inapproprié : les modèles Amazon Nova ne traitent pas les images inappropriées ou explicites qui enfreignent la politique d’utilisation acceptable.
-
Applications médicales : en raison de la nature sensible de ces artefacts, même si les modèles Amazon Nova peuvent fournir une analyse générale de certaines images ou vidéos de santé, nous ne recommandons pas leur utilisation pour interpréter des images médicales sensibles telles que des scans diagnostiques complexes. La réponse des modèles Amazon Nova ne doit jamais être considérée comme un substitut à un avis médical professionnel.
Compréhension des documents
La fonctionnalité de compréhension des documents d'Amazon Nova vous permet d'inclure des documents PDFs complets (fichiers Word, feuilles de calcul, etc.) dans le cadre de votre demande. Cela permet au modèle d'analyser, de résumer, d'extraire des informations ou de répondre à des questions concernant le contenu du document.
Amazon Nova 2 Lite peut interpréter à la fois le texte et les éléments visuels (tels que des graphiques ou des tableaux) contenus dans ces documents. Cela permet des cas d'utilisation tels que la réponse à des questions, la synthèse et l'analyse de longs rapports ou de documents numérisés.
Les principales fonctionnalités de compréhension des documents incluent une très grande fenêtre contextuelle (1 million de jetons) pour les documents longs et la possibilité de gérer plusieurs documents en une seule requête.
Modalités et formats de documents pris en charge
Amazon Nova fait la distinction entre deux types de saisie de documents :
-
Les documents textuels, tels que les fichiers TXT, CSV, HTML, Markdown ou DOC, sont traités principalement pour leur contenu textuel. Amazon Nova comprend le texte de ces documents et en extrait les informations.
-
Les documents multimédias, tels que les fichiers PDF ou DOCX, peuvent contenir des mises en page complexes, des images, des graphiques ou des graphiques intégrés. Pour les documents multimédias, Amazon Nova utilise une compréhension basée sur la vision pour interpréter le contenu visuel, tel que les graphiques, les tableaux, les diagrammes ou les captures d'écran, parallèlement au texte du document.
Les formats de fichiers pris en charge incluent les types de documents courants tels que :
-
Fichiers texte brut et texte structuré : CSV, TXT
-
Feuilles de calcul : XLS, XLSX, HTML, Markdown
-
Formats d'image standard (pour les images contenues dans des documents) : PNG, JPG, GIF, WebP
-
Formats de document : DOC, DOCX, PDF
-
PDFs qui contiennent des encodages d'image, tels que CMYK ou SVG, ne sont pas pris en charge.
Limites de taille des documents et directives d'utilisation
Contrainte |
Limite |
|---|---|
Nombre maximum de documents |
Jusqu'à 5 documents par demande (s'applique à la fois au téléchargement direct et à Amazon S3) |
Taille de document basée sur le texte |
Chaque document texte doit être égal ou inférieur à 4,5 Mo |
Taille du document basée sur le support |
Pour les fichiers PDF et DOCX, il n'existe aucune limite de taille de fichier individuelle. Lorsque vous utilisez le téléchargement direct, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 25 Mo. Lorsque vous utilisez Amazon S3, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 2 Go. |
Contenu PDF non pris en charge |
PDFs qui contiennent des profils de couleurs CMJN ou des images SVG ne sont pas pris en charge. |
Tarification
Amazon Nova utilise une tarification basée sur les jetons : vous payez pour les jetons d'entrée (tout ce que vous envoyez, y compris les documents joints) et les jetons de sortie (la réponse du modèle).
Estimation des jetons pour PDFs : Pour la planification, supposons une page PDF standard de 8,5 x 11 pouces ≈ 2 560 jetons d'entrée (cette estimation couvre à la fois le texte et les éléments visuels d'une page type).
Exemples : utilisation de la compréhension des documents de Nova via l'API et S3
Pour un exemple de son utilisation via une API, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (sans streaming) dans le. Bibliothèque de codes
Pour un exemple de son utilisation via S3, reportez-vous à l'exemple d'entrée multimodale à l'aide de l'URI S3 - API Converse (sans streaming) dans le. Bibliothèque de codes