Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Vision, compréhension des techniques d'incitation
Les techniques d'incitation visuelle suivantes vous aideront à créer de meilleures instructions pour Amazon Nova.
Rubriques
Le placement compte
Nous vous recommandons de placer des fichiers multimédias (tels que des images ou des vidéos) avant d'ajouter des documents, puis de suivre votre texte d'instructions ou vos instructions pour guider le modèle. Bien que les images placées après le texte ou entrecoupées de texte fonctionnent toujours correctement, si le cas d'utilisation le permet, la structure {media_file} -then- {text} est l'approche préférée.
Le modèle suivant peut être utilisé pour placer les fichiers multimédia avant le texte lors de la compréhension visuelle.
{ "role": "user", "content": [ { "image": "..." }, { "video": "..." }, { "document": "..." }, { "text": "..." } ] }
Aucune structure n'a suivi |
Prompt optimisé |
|
---|---|---|
Utilisateur |
Expliquez ce qui se passe dans l'image [Image1.png] |
[Image1.png] Expliquez ce qui se passe dans l'image ? |
Plusieurs fichiers multimédias avec des composants de vision
Dans les situations où vous fournissez plusieurs fichiers multimédia à tour de rôle, introduisez une étiquette numérotée pour chaque image. Par exemple, si vous utilisez deux images, étiquetez-les Image
1:
etImage 2:
. Si vous utilisez trois vidéos, étiquetez-les Video
1:
Video 2:
, etVideo 3:
. Vous n'avez pas besoin de nouvelles lignes entre les images ou entre les images et l'invite.
Le modèle suivant peut être utilisé pour placer plusieurs fichiers multimédia :
messages = [ { "role": "user", "content": [ {"text":"Image 1:"}, {"image": {"format": "jpeg", "source": {"bytes": img_1_base64}}}, {"text":"Image 2:"}, {"image": {"format": "jpeg", "source": {"bytes": img_2_base64}}}, {"text":"Image 3:"}, {"image": {"format": "jpeg", "source": {"bytes": img_3_base64}}}, {"text":"Image 4:"}, {"image": {"format": "jpeg", "source": {"bytes": img_4_base64}}}, {"text":"Image 5:"}, {"image": {"format": "jpeg", "source": {"bytes": img_5_base64}}}, {"text":
user_prompt
}, ], } ]
Prompt non optimisé |
Prompt optimisé |
---|---|
Décrivez ce que vous voyez dans la deuxième image. [Image1.png] [Image2.png] |
[Image1.png] [Image2.png] Décrivez ce que vous voyez dans la deuxième image. |
La deuxième image est-elle décrite dans le document inclus ? [Image1.png] [Image2.png] [Document1.pdf] |
[Image1.png] [Image2.png] [Document1.pdf] La deuxième image est-elle décrite dans le document inclus ? |
En raison des longs jetons contextuels des types de fichiers multimédia, l'invite système indiquée au début de l'invite peut ne pas être respectée dans certains cas. À cette occasion, nous vous recommandons de déplacer toutes les instructions du système au tour de l'utilisateur et de suivre les instructions générales de {media_file} -then- {text}. Cela n'a aucune incidence sur les instructions du système concernant le RAG, les agents ou l'utilisation des outils.
Utilisez les instructions utilisateur pour améliorer le suivi des instructions pour les tâches de compréhension visuelle
Pour la compréhension de la vidéo, le nombre de jetons contextuels rend les recommandations Le placement compte très importantes. Utilisez l'invite du système pour des informations plus générales, telles que le ton et le style. Pour de meilleures performances, nous vous recommandons de conserver les instructions relatives à la vidéo dans l'invite de l'utilisateur.
Le modèle suivant peut être utilisé pour améliorer les instructions :
{ "role": "user", "content": [ { "video": { "format": "mp4", "source": { ... } } }, { "text": "You are an expert in recipe videos. Describe this video in less than 200 words following these guidelines: ..." } ] }
Tout comme pour le texte, nous vous recommandons d' chain-of-thoughtutiliser des images et des vidéos pour améliorer les performances. Nous vous recommandons également de placer les chain-of-thought directives dans l'invite du système, tout en conservant les autres instructions dans l'invite de l'utilisateur.
Important
Le modèle Amazon Nova Premier est un modèle plus intelligent de la famille Amazon Nova, capable de gérer des tâches plus complexes. Si vos tâches nécessitent une chain-of-thought réflexion approfondie, nous vous recommandons d'utiliser le modèle d'invite fourni dans Give Amazon Nova time to think (chain-of-thought). Cette approche peut contribuer à améliorer les capacités d'analyse et de résolution de problèmes du modèle.
Quelques exemplaires de photos
Tout comme pour les modèles de texte, nous vous recommandons de fournir des exemples d'images pour améliorer les performances de compréhension des images (les exemples de vidéos ne peuvent pas être fournis en raison des single-video-per-inference limites). Nous vous recommandons de placer les exemples dans l'invite utilisateur, après le fichier multimédia, plutôt que de les fournir dans l'invite du système.
0-Shot | 2 coups | |
---|---|---|
Utilisateur | [Image 1] | |
Assistant | Description de l'image 1 | |
Utilisateur | [Image 2] | |
Assistant | Description de l'image 2 | |
Utilisateur | [Photo 3] Expliquez ce qui se passe dans l'image |
[Photo 3] Expliquez ce qui se passe dans l'image |
Détection des boîtes de délimitation
Si vous avez besoin d'identifier les coordonnées des cadres de délimitation d'un objet, vous pouvez utiliser le modèle Amazon Nova pour générer des cadres de délimitation sur une échelle de [0, 1000]. Après avoir obtenu ces coordonnées, vous pouvez les redimensionner en fonction des dimensions de l'image dans le cadre d'une étape de post-traitement. Pour obtenir des informations plus détaillées sur la manière d'effectuer cette étape de post-traitement, consultez le carnet Amazon Nova Image Grounding
Voici un exemple d'invite pour la détection des boîtes de délimitation :
Detect bounding box of objects in the image, only detect {item_name} category objects with high confidence, output in a list of bounding box format. Output example: [ {"{item_name}": [x1, y1, x2, y2]}, ... ] Result:
Des sorties ou un style plus riches
La sortie de compréhension vidéo peut être très courte. Si vous souhaitez des sorties plus longues, nous vous recommandons de créer un personnage pour le modèle. Vous pouvez demander à cette personne de répondre de la manière que vous souhaitez, comme si vous utilisiez le rôle système.
D'autres modifications des réponses peuvent être apportées à l'aide de techniques en un seul coup ou en quelques coups. Donnez des exemples de ce que devrait être une bonne réponse et le modèle pourra en imiter certains aspects tout en générant des réponses.
Extraire le contenu du document dans Markdown
Amazon Nova Premier présente des capacités améliorées permettant de comprendre les graphiques intégrés aux documents et de lire et de comprendre du contenu provenant de domaines complexes tels que les articles scientifiques. En outre, Amazon Nova Premier affiche des performances améliorées lors de l'extraction du contenu des documents et peut générer ces informations aux formats Markdown Table et Latex.
L'exemple suivant fournit un tableau dans une image, ainsi qu'une invite Amazon Nova Premier à convertir le contenu de l'image en tableau Markdown. Une fois le Markdown (ou représentation Latex) créé, vous pouvez utiliser des outils pour convertir le contenu en JSON ou en une autre sortie structurée.
Make a table representation in Markdown of the image provided.

Voici le résultat fourni par le modèle :
| No. | DATE | DESCRIPTION | AMOUNT | |-----|------------|-------------|--------| | 1 | 2021-04-19 | Guest room | $180 | | 2 | 2021-04-19 | Breakfast | $30 | | 3 | 2021-04-20 | Guest room | $180 | | 4 | 2021-04-20 | Laundry | $15 | | 5 | 2021-04-20 | Dinner | $70 | | 6 | 2021-04-20 | Breakfast | $30 | | 7 | 2021-04-21 | Guest room | $180 | | 8 | 2021-04-21 | Breakfast | $30 | | 9 | 2021-04-21 | Dinner | $70 | | 10 | 2021-04-21 | Laundry | $15 | | | | Subtotal | $800 | | | | Discounts | $24 | | | | Taxes | $68.9 | | | | Total | $844.9 |
Cette sortie utilise une notation de table personnalisée qui ||
est utilisée comme séparateur de colonnes et &&
comme séparateur de lignes.
Réglages des paramètres d'inférence pour la compréhension de la vision
Pour comprendre les cas d'utilisation liés à la vision, nous vous recommandons de commencer par les paramètres d'inférence temperature
définis sur 0
et topK
définis sur. 1
Après avoir observé le résultat du modèle, vous pouvez ajuster les paramètres d'inférence en fonction du cas d'utilisation. Ces valeurs dépendent généralement de la tâche et de la variance requises. Augmentez le réglage de température pour induire davantage de variations dans les réponses.
Classification des vidéos
Pour trier efficacement le contenu vidéo dans les catégories appropriées, fournissez des catégories que le modèle peut utiliser pour la classification. Examinez l'exemple d'invite suivant :
[Video] Which category would best fit this video? Choose an option from the list below: \Education\Film & Animation\Sports\Comedy\News & Politics\Travel & Events\Entertainment\Trailers\How-to & Style\Pets & Animals\Gaming\Nonprofits & Activism\People & Blogs\Music\Science & Technology\Autos & Vehicles
Marquage de vidéos
Amazon Nova Premier présente des fonctionnalités améliorées pour créer des tags vidéo. Pour de meilleurs résultats, utilisez l'instruction suivante pour demander des balises séparées par des virgules : « Utilisez des virgules pour séparer chaque balise ». Voici un exemple d'invite :
[video] "Can you list the relevant tags for this video? Use commas to separate each tag."
Sous-titrage dense des vidéos
Amazon Nova Premier présente des fonctionnalités améliorées pour fournir des sous-titres denses, c'est-à-dire des descriptions textuelles détaillées générées pour plusieurs segments de la vidéo. Voici un exemple d'invite :
[Video] Generate a comprehensive caption that covers all major events and visual elements in the video.