Préparation des données pour le peaufinage des modèles de compréhension - Amazon Nova

Préparation des données pour le peaufinage des modèles de compréhension

Voici les directives et les exigences relatives à la préparation des données pour le peaufinage des modèles de compréhension :

  1. La taille minimale des données pour le peaufinage dépend de la tâche (complexe ou simple), mais nous vous recommandons d’avoir au moins 100 échantillons pour chaque tâche que vous voulez que le modèle apprenne.

  2. Nous vous recommandons d’utiliser votre invite optimisée dans un paramètre zero-shot pendant l’entraînement et l’inférence afin d’obtenir les meilleurs résultats.

  3. Les jeux de données d’entraînement et de validation doivent être des fichiers JSONL, où chaque ligne est un objet JSON correspondant à un enregistrement. Les noms de ces fichiers ne peuvent contenir que des caractères alphanumériques, des traits de soulignement, des tirets, des barres obliques et des points.

  4. Contraintes relatives aux images et aux vidéos

    1. Le jeu de données ne peut pas contenir différents types de médias. Autrement dit, le jeu de données peut être soit du texte avec des images, soit du texte avec des vidéos.

    2. Un échantillon (enregistrement unique dans les messages) peut comporter plusieurs images

    3. Un échantillon (enregistrement unique dans les messages) ne peut comporter qu’une seule vidéo

  5. schemaVersion peut être n’importe quelle valeur de chaîne

  6. Le tour (facultatif) system peut être une invite système personnalisée fournie par le client.

  7. Les rôles pris en charge sont user et assistant.

  8. Le premier tour dans messages doit toujours commencer par "role": "user". Le dernier tour est la réponse du bot, indiquée par « role » : « assistant ».

  9. Les image.source.s3Location.uri et video.source.s3Location.uri doivent être accessibles à Amazon Bedrock.

  10. Votre rôle de service Amazon Bedrock doit pouvoir accéder aux fichiers image dans Amazon S3. Pour plus d’informations sur l’octroi d’accès, consultez Créer un rôle de service pour la personnalisation du modèle

  11. Les images ou vidéos doivent se trouver dans le même compartiment Amazon S3 que votre jeu de données. Par exemple, si votre jeu de données se trouve dans s3://amzn-s3-demo-bucket/train/train.jsonl, vos images ou vidéos doivent se trouver dans s3://amzn-s3-demo-bucket

  12. Les termes User:, Bot:, Assistant:, System:, <image>, <video> et [EOS] sont des mots-clés réservés. Si une invite utilisateur ou une invite système commence par l’un de ces mots-clés, ou si ces mots-clés apparaissent n’importe où dans vos invites, votre tâche d’entraînement échouera en raison de problèmes de données. Si vous devez utiliser ces mots-clés pour votre cas d’utilisation, vous devez les remplacer par un mot-clé différent ayant une signification similaire afin que votre entraînement puisse se poursuivre.

Exemples de formats de jeux de données

Les formats de jeux de données suivants vous fournissent un guide à suivre.

L’exemple suivant concerne le peaufinage personnalisé pour le texte uniquement.

// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

L’exemple suivant concerne le peaufinage personnalisé pour le texte et une seule image.

// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }

L’exemple suivant concerne le peaufinage personnalisé pour du texte et une vidéo.

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }

Contraintes liées aux jeux de données

Amazon Nova applique les contraintes suivantes aux personnalisations de modèles pour les modèles Understanding.

Modèle

Nombre minimal d’échantillons

Nombre maximal d’échantillons

Longueur de contexte

Amazon Nova Micro

8

20 000

32 000

Amazon Nova Lite

8

20 000

32 000

Amazon Nova Pro

8

20 000

32 000

Contraintes relatives aux images et aux vidéos

Nombre maximal d’images

10 par échantillon

Taille maximale du fichier image

10 Mo

Nombre maximal de vidéos

1 par échantillon

Longueur/durée maximale de la vidéo

90 secondes

Taille maximale du fichier vidéo

50 Mo

Formats multimédias pris en charge
  • Image : png, jpeg, gif, webp

  • Vidéo - mov, mkv, mp4, webm