Préparation des données pour optimiser les modèles de traitement d’image et de texte - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données pour optimiser les modèles de traitement d’image et de texte

Note

Pour plus d’informations sur le peaufinage des modèles Amazon Nova, consultez Peaufinage des modèles Amazon Nova.

Pour optimiser les modèles image-texte-texte, chaque objet JSON est un échantillon contenant une conversation structurée sous forme de tableau de messages, composé d’objets JSON alternés représentant les entrées de l’utilisateur et les réponses de l’assistant. Les entrées de l’utilisateur peuvent inclure à la fois du texte et des images, tandis que les réponses de l’assistant sont toujours textuelles. Cette structure prend en charge les flux de conversation simple et complexe, ce qui permet au modèle de gérer efficacement diverses tâches. Les formats d’image pris en charge pour Meta Llama-3.2 11B Vision Instruct et Meta Llama-3.2 90B Vision Instruct incluent : gif, jpeg, png et webp.

Pour autoriser l’accès d’Amazon Bedrock aux fichiers d’images, ajoutez une politique IAM similaire à celle indiquée dans Autorisations d’accès aux fichiers d’entraînement et de validation et d’écriture de fichiers de sortie dans S3 au rôle de service de personnalisation du modèle Amazon Bedrock que vous avez configuré ou qui a été automatiquement configuré pour vous dans la console. Les chemins Amazon S3 que vous fournissez dans le jeu de données d’entraînement doivent se trouver dans des dossiers que vous spécifiez dans la politique.

Conversations simples

Chaque objet JSON pour les conversations simples se compose d’un message d’utilisateur et d’un message d’assistant. Le message d’utilisateur inclut un champ de rôle défini sur utilisateur et un champ contenu contenant un tableau avec un champ type (texte ou image) décrivant la modalité d’entrée. Pour les entrées de texte, le champ content inclut un champ text contenant la question ou l’invite de l’utilisateur. Pour les entrées d’image, le champ content spécifie le format de l’image (par exemple, jpeg, png) et sa source avec un uri pointant vers l’emplacement Amazon S3 de l’image. L’uri représente le chemin unique vers l’image stockée dans un compartiment Amazon S3, généralement au format s3://<bucket-name>/<path-to-file>. Le message d’assistant comprend un champ role défini sur assistant et un champ content contenant un tableau avec un champ type défini sur texte et un champ text contenant la réponse générée par l’assistant.

Exemple de format

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }

Conversations complexes

Chaque objet JSON pour les conversations complexes contient une séquence de messages avec des rôles alternés, dans lesquels les messages d’utilisateur et les messages d’assistant sont structurés de manière cohérente pour permettre des échanges cohérents. Les messages d’utilisateur incluent un champ role défini sur utilisateur et un champ content qui décrit la modalité d’entrée. Pour les entrées de texte, le champ content inclut un champ text contenant la question ou le suivi de l’utilisateur, tandis que pour les entrées d’images, il indique l’image format et son source avec un uri pointant vers l’emplacement Amazon S3 de l’image. Le uri sert d’identifiant unique au format s3://<bucket-name>/<path-to-file> et permet au modèle d’accéder à l’image depuis le compartiment Amazon S3 désigné. Les messages d’assistant incluent un champ role défini sur assistant et un champ content contenant un tableau avec un champ type défini sur texte et un champ text contenant la réponse générée par l’assistant. Les conversations peuvent couvrir plusieurs échanges, ce qui permet à l’assistant de maintenir le contexte et de fournir des réponses cohérentes tout au long de la conversation.

Exemple de format

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }