Types de contenu pris en charge par modalité Compréhension des images Compréhension des vidéos Compréhension des documents

Compréhension multimodale

Amazon Nova 2 Lite peut comprendre plusieurs modalités de saisie. Ce modèle est doté de fonctionnalités de vision qui lui permettent de comprendre et d'analyser des images, des documents, des vidéos et des discours afin de déduire des questions et d'y répondre en fonction du contenu fourni.

Cette section décrit les directives relatives à l'utilisation d'images, de documents et de vidéos dans Amazon Nova, notamment les stratégies de prétraitement utilisées, les exemples de code et les limites pertinentes à prendre en compte.

Types de contenu pris en charge par modalité

Les informations suivantes détaillent les formats de fichier pris en charge par chaque type de fichier multimédia et la méthode de saisie acceptée.

Type de fichier multimédia	Formats de fichiers pris en charge	Méthode de saisie	Limites de taille	Nombre d’objets
Image	PNG, JPEG, GIF, WebP Remarque : Si vous utilisez un fichier GIF ou WebP animé, seule la première image sera utilisée.	Intégrer des données dans la demande Si vous utilisez l'API Converse, codez les données sous forme d'octets. Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64.	25 Mo	5
Image		URI Amazon S3	2 Go au total	1 000
Vidéo	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	Intégrer des données dans la demande Si vous utilisez l'API Converse, codez les données sous forme d'octets. Si vous utilisez l'API Invoke, codez les données sous forme de chaîne Base64.	25 Mo	1
Vidéo	MP4, MOV, MKV, WebM, FLV, MPEG, MPG, WMV, 3GP	URI Amazon S3	1 Go	1

Compréhension des images

La compréhension des images fait référence à la capacité d'Amazon Nova à traiter une image et à effectuer diverses tâches de vision par ordinateur, telles que :

Réalisation de la détection d'objets
Répondre aux questions sur les images grâce à la fonction de réponse visuelle aux questions (VQA)
Classification et synthèse des images
Réalisation de la détection des boîtes de délimitation
Reconnaissance optique de caractères (OCR)
Comptage d'objets

Les images peuvent être incluses sous forme d'invite transmise à l'API sous forme de tableaux d'octets ou via l'URI S3.

Informations techniques clés

Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.

Dimensionnement et redimensionnement de l'image

Amazon Nova redimensionne automatiquement les images pour optimiser la qualité et les performances :

Détermine le rapport hauteur/largeur le plus proche (tel que 1:1, 1:2, 2:3, etc.)
Redimensionne de manière à ce qu'un côté ≥ 896 pixels ou corresponde au côté le plus court de l'image d'origine, selon le plus grand des deux
Maintient le rapport hauteur/largeur
Supporte une résolution allant jusqu'à 8 000 × 8 000 pixels

Coordonnées du cadre de délimitation :

Utile pour des tâches telles que l'identification d'éléments dans les captures d'écran ou la mise à la base d'images
Les coordonnées peuvent être redimensionnées pour correspondre aux dimensions d'origine de l'image lors du post-traitement
Renvoie les cases de délimitation sur une échelle de [0, 1000].

Image-token estimation

Amazon Nova convertit chaque image en jetons à des fins de traitement. Bien que le nombre de jetons traités varie en fonction de la résolution de l'image et du rapport hauteur/largeur, l'utilisation est facturée au tarif forfaitaire de 230 jetons par image. Notez que le inputTokens nombre renvoyé par l'appel d'API reflète ces 230 jetons.

Exemples de compréhension d’images

Pour savoir comment intégrer des données d'image directement dans la demande, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes

Pour charger des fichiers image volumineux ou plusieurs fichiers image, dont la charge utile globale est supérieure à 25 Mo, utilisez Amazon S3. Pour un exemple complet de l'utilisation des références d'URI Amazon S3 pour la saisie d'images, reportez-vous à l'exemple de saisie multimodale à l'aide de l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes

Note

Lorsque vous utilisez S3, assurez-vous que le service Amazon Bedrock est autorisé à accéder au bucket et à l'objet.

Principales limites

La liste suivante décrit les limites actuelles des modèles de compréhension des images :

Compréhension multilingue des images : les modèles ont une compréhension limitée des images et des images vidéo multilingues et peuvent avoir des difficultés ou des hallucinations lors de tâches simples.
Identification des personnes : les modèles Amazon Nova 2 ne permettent pas d'identifier ou de nommer des personnes sur des images, des documents ou des vidéos.
Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent rencontrer des difficultés avec les tâches qui nécessitent une localisation précise ou une analyse de la disposition.
Petit texte dans les images et les vidéos : si le texte de l'image ou de la vidéo est trop petit, envisagez d'augmenter la taille relative du texte de l'image en le recadrant dans la section appropriée tout en préservant le contexte nécessaire.

Compréhension des vidéos

La compréhension vidéo fait référence à la capacité d'Amazon Nova à traiter les entrées vidéo et à effectuer diverses tâches de compréhension vidéo, telles que :

Analyse des images clés et synthèse du contenu vidéo
Répondre aux questions concernant les segments vidéo (réponse aux questions vidéo ou assurance qualité vidéo)
Détection et suivi d'objets sur plusieurs cadres
Identification des actions, des scènes et des événements
Réalisation d'une segmentation temporelle pour localiser des moments spécifiques
Génération de légendes descriptives ou de résumés de séquences vidéo

Informations techniques clés

Voici les principales informations techniques à prendre en compte lorsque vous utilisez cette fonctionnalité.

Informations sur la taille de la vidéo

Les fonctionnalités de compréhension vidéo d'Amazon Nova prennent en charge le format multiformat. Toutes les vidéos sont redimensionnées avec distorsion (vers le haut ou vers le bas, en fonction du rapport hauteur/largeur d'origine) à 672 × 672 carrés avant d'être saisies dans le modèle.

Le modèle utilise une stratégie d'échantillonnage dynamique basée sur la durée de la vidéo. Pour les vidéos d'une durée de 16 minutes ou moins, Amazon Nova 2 Lite échantillonne 1 image par seconde (FPS). Pour les vidéos de plus de 16 minutes, le taux d'échantillonnage diminue pour maintenir un échantillonnage constant de 960 images, le taux d'échantillonnage variant en conséquence. Cette approche est conçue pour fournir une compréhension plus précise de la vidéo au niveau de la scène pour les vidéos plus courtes par rapport aux contenus vidéo plus longs.

Nous vous recommandons de limiter la durée de la vidéo à moins d'une heure pour les vidéos en faible intensité et à moins de 16 minutes pour les vidéos en haute définition.

Il ne devrait y avoir aucune différence entre l’analyse d’une version 4k d’une vidéo et celle d’une version Full HD. De même, comme le taux d'échantillonnage est de 1 images par seconde, une vidéo à 60 images par seconde devrait fonctionner aussi bien qu'une vidéo à 30 images par seconde. L'utilisation d'une résolution et d'un nombre d'images par seconde supérieurs à ce qui est requis n'est pas avantageuse en raison de la limite de 1 Go de taille vidéo. Cela limitera la longueur de la vidéo correspondant à cette limite de taille. Vous souhaiterez peut-être prétraiter des vidéos de plus de 1 Go.

Jetons vidéo

La durée de la vidéo est le principal facteur influant sur le nombre de jetons générés. Pour calculer le coût approximatif, multipliez le nombre estimé de jetons vidéo par le prix par jeton pour le modèle spécifique utilisé.

Le tableau suivant fournit quelques approximations de l'échantillonnage d'images et de l'utilisation des jetons par durée de vidéo pour Amazon Nova 2 Lite :

Durée de la vidéo	Cadres à échantillonner	Fréquence d'échantillonnage par seconde	Jetons approximatifs
10 secondes	10	1	2 880
30 secondes	30	1	8 640
16 minutes	960	1	276 480
20 minutes	1200	1	345 600
30 minutes	1800	1	518 400
45 minutes	2700	1	777 600

Exemples de compréhension de vidéos

Pour savoir comment intégrer des données vidéo directement dans la demande, reportez-vous à l'exemple d'entrée multimodale utilisant un actif intégré - API Converse (non diffusé) dans le. Bibliothèque de codes

Pour un exemple d'utilisation des références d'URI S3 dans l'entrée vidéo, reportez-vous à l'exemple d'entrée multimodale utilisant l'URI S3 - API Converse (non diffusé) dans le. Bibliothèque de codes

Principales limites

Voici les principales limites du modèle, pour lesquelles la précision et les performances du modèle peuvent ne pas être garanties :

Aucun support audio : les modèles Amazon Nova sont actuellement formés pour traiter et comprendre le contenu vidéo uniquement sur la base des images visuelles. Les pistes audio des vidéos ne sont ni traitées ni analysées.
Compréhension multilingue des images : les modèles Amazon Nova ont une compréhension limitée des images et des images vidéo multilingues. Ils peuvent avoir des difficultés ou avoir des hallucinations lors de tâches simples.
Identification des personnes : les modèles Amazon Nova ne prennent pas en charge la capacité d’identifier ou de nommer des personnes dans des images, des documents ou des vidéos. Les modèles ne fourniront pas les noms ou les identités des personnes dans le contenu visuel.
Petit texte dans les vidéos : si le texte de l'image ou de la vidéo est trop petit, pensez à augmenter la taille relative du texte de la vidéo.
Raisonnement spatial : les modèles Amazon Nova 2 ont des capacités de raisonnement spatial limitées. Ils peuvent avoir du mal à effectuer des tâches qui nécessitent une compréhension précise de la position des objets, des distances ou des relations spatiales dans les vidéos.
Contenu inapproprié : les modèles Amazon Nova ne traitent pas les images inappropriées ou explicites qui enfreignent la politique d’utilisation acceptable.
Applications médicales : en raison de la nature sensible de ces artefacts, même si les modèles Amazon Nova peuvent fournir une analyse générale de certaines images ou vidéos de santé, nous ne recommandons pas leur utilisation pour interpréter des images médicales sensibles telles que des scans diagnostiques complexes. La réponse des modèles Amazon Nova ne doit jamais être considérée comme un substitut à un avis médical professionnel.

Compréhension des documents

La fonctionnalité de compréhension des documents d'Amazon Nova vous permet d'inclure des documents complets (PDF, fichiers Word, feuilles de calcul, etc.) dans le cadre de votre demande. Cela permet au modèle d'analyser, de résumer, d'extraire des informations ou de répondre à des questions concernant le contenu du document.

Amazon Nova 2 Lite peut interpréter à la fois le texte et les éléments visuels (tels que des graphiques ou des tableaux) contenus dans ces documents. Cela permet des cas d'utilisation tels que la réponse à des questions, la synthèse et l'analyse de longs rapports ou de documents numérisés.

Les principales fonctionnalités de compréhension des documents incluent une très grande fenêtre contextuelle (1 million de jetons) pour les documents longs et la possibilité de gérer plusieurs documents en une seule requête.

Modalités et formats de documents pris en charge

Amazon Nova fait la distinction entre deux types de saisie de documents :

Text-based les documents, tels que les fichiers TXT, CSV, HTML, Markdown ou DOC, sont traités principalement pour leur contenu textuel. Amazon Nova comprend le texte de ces documents et en extrait les informations.
Media-based les documents, tels que les fichiers PDF ou DOCX, peuvent contenir des mises en page complexes, des images, des graphiques ou des graphiques intégrés. Pour les documents multimédias, Amazon Nova utilise une compréhension basée sur la vision pour interpréter le contenu visuel, tel que les graphiques, les tableaux, les diagrammes ou les captures d'écran, parallèlement au texte du document.

Les formats de fichiers pris en charge incluent les types de documents courants tels que :

Fichiers texte brut et texte structuré : CSV, TXT
Feuilles de calcul : XLS, XLSX, HTML, Markdown
Formats d'image standard (pour les images contenues dans des documents) : PNG, JPG, GIF, WebP
Formats de document : DOC, DOCX, PDF
Les fichiers PDF contenant des encodages d'image, tels que CMYK ou SVG, ne sont pas pris en charge.

Limites de taille des documents et directives d'utilisation

Contrainte	Limite
Nombre maximum de documents	Jusqu'à 5 documents par demande (s'applique à la fois au téléchargement direct et à Amazon S3)
Text-based taille du document	Chaque document texte doit être égal ou inférieur à 4,5 Mo
Media-based taille du document	Pour les fichiers PDF et DOCX, il n'existe aucune limite de taille de fichier individuelle. Lorsque vous utilisez le téléchargement direct, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 25 Mo. Lorsque vous utilisez Amazon S3, la taille combinée de tous les documents multimédia doit être inférieure ou égale à 2 Go.
Contenu PDF non pris en charge	Les fichiers PDF contenant des profils de couleurs CMJN ou des images SVG ne sont pas pris en charge.

Tarification

Amazon Nova utilise une tarification basée sur les jetons : vous payez pour les jetons d'entrée (tout ce que vous envoyez, y compris les documents joints) et les jetons de sortie (la réponse du modèle).

Estimation des jetons pour les PDF : Pour la planification, supposons une page PDF standard de 8,5 x 11 pouces ≈ 2 560 jetons d'entrée (cette estimation couvre à la fois le texte et les éléments visuels d'une page type).

Exemples : utilisation de la compréhension des documents de Nova via l'API et S3

Pour un exemple de son utilisation via une API, reportez-vous à l'exemple de saisie multimodale utilisant un actif intégré - API Converse (sans streaming) dans le. Bibliothèque de codes

Pour un exemple de son utilisation via S3, reportez-vous à l'exemple d'entrée multimodale à l'aide de l'URI S3 - API Converse (sans streaming) dans le. Bibliothèque de codes

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Raisonnement

Speech-to-Speech