Exemples de formats de jeux de données Contraintes liées aux jeux de données

Préparation des données pour le peaufinage des modèles de compréhension

Voici les directives et les exigences relatives à la préparation des données pour le peaufinage des modèles de compréhension :

La taille minimale des données pour le peaufinage dépend de la tâche (complexe ou simple), mais nous vous recommandons d’avoir au moins 100 échantillons pour chaque tâche que vous voulez que le modèle apprenne.
Nous vous recommandons d’utiliser votre invite optimisée dans un paramètre zero-shot pendant l’entraînement et l’inférence afin d’obtenir les meilleurs résultats.
Les jeux de données d’entraînement et de validation doivent être des fichiers JSONL, où chaque ligne est un objet JSON correspondant à un enregistrement. Les noms de ces fichiers ne peuvent contenir que des caractères alphanumériques, des traits de soulignement, des tirets, des barres obliques et des points.
Contraintes relatives aux images et aux vidéos
1. Le jeu de données ne peut pas contenir différents types de médias. Autrement dit, le jeu de données peut être soit du texte avec des images, soit du texte avec des vidéos.
2. Un échantillon (enregistrement unique dans les messages) peut comporter plusieurs images
3. Un échantillon (enregistrement unique dans les messages) ne peut comporter qu’une seule vidéo
schemaVersion peut être n’importe quelle valeur de chaîne
Le tour (facultatif) system peut être une invite système personnalisée fournie par le client.
Les rôles pris en charge sont user et assistant.
Le premier tour dans messages doit toujours commencer par "role": "user". Le dernier tour est la réponse du bot, indiquée par « role » : « assistant ».
Les image.source.s3Location.uri et video.source.s3Location.uri doivent être accessibles à Amazon Bedrock.
Votre rôle de service Amazon Bedrock doit pouvoir accéder aux fichiers image dans Amazon S3. Pour plus d’informations sur l’octroi d’accès, consultez Créer un rôle de service pour la personnalisation du modèle
Les images ou vidéos doivent se trouver dans le même compartiment Amazon S3 que votre jeu de données. Par exemple, si votre jeu de données se trouve dans s3://amzn-s3-demo-bucket/train/train.jsonl, vos images ou vidéos doivent se trouver dans s3://amzn-s3-demo-bucket
Les termes User:, Bot:, Assistant:, System:, <image>, <video> et [EOS] sont des mots-clés réservés. Si une invite utilisateur ou une invite système commence par l’un de ces mots-clés, ou si ces mots-clés apparaissent n’importe où dans vos invites, votre tâche d’entraînement échouera en raison de problèmes de données. Si vous devez utiliser ces mots-clés pour votre cas d’utilisation, vous devez les remplacer par un mot-clé différent ayant une signification similaire afin que votre entraînement puisse se poursuivre.

Exemples de formats de jeux de données

Les formats de jeux de données suivants vous fournissent un guide à suivre.

L’exemple suivant concerne le peaufinage personnalisé pour le texte uniquement.


// train.jsonl
{
  "schemaVersion": "bedrock-conversation-2024",
  "system": [
    {
      "text": "You are a digital assistant with a friendly personality"
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "text": "What is the capital of Mars?"
        }
      ]
    },
    {
      "role": "assistant",
      "content": [
        {
          "text": "Mars does not have a capital. Perhaps it will one day."
        }
      ]
    }
  ]
}

L’exemple suivant concerne le peaufinage personnalisé pour le texte et une seule image.


// train.jsonl{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a smart assistant that answers questions respectfully"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "What does the text in this image say?"
                },
                {
                    "image": {
                        "format": "png",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.png",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "The text in the attached image says 'LOL'."
            }]
        }
    ]
}

L’exemple suivant concerne le peaufinage personnalisé pour du texte et une vidéo.


{
    "schemaVersion": "bedrock-conversation-2024",
    "system": [{
        "text": "You are a helpful assistant designed to answer questions crisply and to the point"
    }],
    "messages": [{
            "role": "user",
            "content": [{
                    "text": "How many white items are visible in this video?"
                },
                {
                    "video": {
                        "format": "mp4",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-video.mp4",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                }
            ]
        },
        {
            "role": "assistant",
            "content": [{
                "text": "There are at least eight visible items that are white"
            }]
        }
    ]
}

Contraintes liées aux jeux de données

Amazon Nova applique les contraintes suivantes aux personnalisations de modèles pour les modèles Understanding.

Modèle	Nombre minimal d’échantillons	Nombre maximal d’échantillons	Longueur de contexte
Amazon Nova Micro	8	20 000	32 000
Amazon Nova Lite	8	20 000	32 000
Amazon Nova Pro	8	20 000	32 000

Contraintes relatives aux images et aux vidéos
Nombre maximal d’images	10 par échantillon
Taille maximale du fichier image	10 Mo
Nombre maximal de vidéos	1 par échantillon
Longueur/durée maximale de la vidéo	90 secondes
Taille maximale du fichier vidéo	50 Mo

Formats multimédias pris en charge

Image : png, jpeg, gif, webp
Vidéo - mov, mkv, mp4, webm

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Chiffrement des tâches et des artefacts

Préparation des données pour le peaufinage des modèles de génération de contenu créatif