Préparation des données pour le peaufinage des modèles de compréhension
Voici les directives et les exigences relatives à la préparation des données pour le peaufinage des modèles de compréhension :
-
La taille minimale des données pour le peaufinage dépend de la tâche (complexe ou simple), mais nous vous recommandons d’avoir au moins 100 échantillons pour chaque tâche que vous voulez que le modèle apprenne.
-
Nous vous recommandons d’utiliser votre invite optimisée dans un paramètre zero-shot pendant l’entraînement et l’inférence afin d’obtenir les meilleurs résultats.
-
Les jeux de données d’entraînement et de validation doivent être des fichiers JSONL, où chaque ligne est un objet JSON correspondant à un enregistrement. Les noms de ces fichiers ne peuvent contenir que des caractères alphanumériques, des traits de soulignement, des tirets, des barres obliques et des points.
-
Contraintes relatives aux images et aux vidéos
-
Le jeu de données ne peut pas contenir différents types de médias. Autrement dit, le jeu de données peut être soit du texte avec des images, soit du texte avec des vidéos.
-
Un échantillon (enregistrement unique dans les messages) peut comporter plusieurs images
-
Un échantillon (enregistrement unique dans les messages) ne peut comporter qu’une seule vidéo
-
-
schemaVersionpeut être n’importe quelle valeur de chaîne -
Le tour (facultatif)
systempeut être une invite système personnalisée fournie par le client. -
Les rôles pris en charge sont
useretassistant. -
Le premier tour dans
messagesdoit toujours commencer par"role": "user". Le dernier tour est la réponse du bot, indiquée par « role » : « assistant ». -
Les
image.source.s3Location.urietvideo.source.s3Location.uridoivent être accessibles à Amazon Bedrock. -
Votre rôle de service Amazon Bedrock doit pouvoir accéder aux fichiers image dans Amazon S3. Pour plus d’informations sur l’octroi d’accès, consultez Créer un rôle de service pour la personnalisation du modèle
-
Les images ou vidéos doivent se trouver dans le même compartiment Amazon S3 que votre jeu de données. Par exemple, si votre jeu de données se trouve dans
s3://amzn-s3-demo-bucket/train/train.jsonl, vos images ou vidéos doivent se trouver danss3://amzn-s3-demo-bucket -
Les termes
User:,Bot:,Assistant:,System:,<image>,<video>et[EOS]sont des mots-clés réservés. Si une invite utilisateur ou une invite système commence par l’un de ces mots-clés, ou si ces mots-clés apparaissent n’importe où dans vos invites, votre tâche d’entraînement échouera en raison de problèmes de données. Si vous devez utiliser ces mots-clés pour votre cas d’utilisation, vous devez les remplacer par un mot-clé différent ayant une signification similaire afin que votre entraînement puisse se poursuivre.
Exemples de formats de jeux de données
Les formats de jeux de données suivants vous fournissent un guide à suivre.
L’exemple suivant concerne le peaufinage personnalisé pour le texte uniquement.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }
L’exemple suivant concerne le peaufinage personnalisé pour le texte et une seule image.
// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
L’exemple suivant concerne le peaufinage personnalisé pour du texte et une vidéo.
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }
Contraintes liées aux jeux de données
Amazon Nova applique les contraintes suivantes aux personnalisations de modèles pour les modèles Understanding.
Modèle |
Nombre minimal d’échantillons |
Nombre maximal d’échantillons |
Longueur de contexte |
|---|---|---|---|
Amazon Nova Micro |
8 |
20 000 |
32 000 |
Amazon Nova Lite |
8 |
20 000 |
32 000 |
Amazon Nova Pro |
8 |
20 000 |
32 000 |
Nombre maximal d’images |
10 par échantillon |
Taille maximale du fichier image |
10 Mo |
Nombre maximal de vidéos |
1 par échantillon |
Longueur/durée maximale de la vidéo |
90 secondes |
Taille maximale du fichier vidéo |
50 Mo |
Formats multimédias pris en charge
-
Image :
png,jpeg,gif,webp -
Vidéo -
mov,mkv,mp4,webm