Types de fichiers de jeux de données et format des données d’entrée - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Types de fichiers de jeux de données et format des données d’entrée

Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches de traitement du langage naturel ( LLMs NLP) préentraînées. Les exemples étiquetés sont présentés sous forme de paires invite-réponse et formulés comme des instructions.

Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultez Types de fichiers de jeu de données pris en charge.

Pour en savoir plus sur le format des données d’entrée, consultez Format des données d’entrée pour le peaufinage sur instructions.

Types de fichiers de jeu de données pris en charge

Autopilot prend en charge les jeux de données de peaufinage sur instructions au format de fichiers CSV (par défaut) ou de fichiers Parquet.

  • CSV (valeurs séparées par des virgules) est un format de fichier basé sur les lignes qui stocke les données en texte brut lisible par l’utilisateur, un choix populaire pour l’échange de données, car il est pris en charge par un large éventail d’applications.

  • Parquet est un format de fichier binaire basé sur des colonnes, dans lequel les données sont stockées et traitées plus efficacement que dans les formats de fichiers basés sur des lignes, comme CSV. Il s’agit d’un meilleure option pour les problèmes de big data.

Note

Le jeu de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour en savoir plus sur la façon de formater vos données d’entrée, consultez Format des données d’entrée pour le peaufinage sur instructions.

Format des données d’entrée pour le peaufinage sur instructions

Chaque fichier du jeu de données doit respecter le format suivant :

  • Le jeu de données doit contenir exactement deux colonnes nommées et séparées par des virgules, input et output. Autopilot n’autorise aucune colonne supplémentaire.

  • La colonne input contient les invites, et la colonne output correspondante contient la réponse attendue. Les colonnes input et output sont toutes deux au format chaîne.

L’exemple suivant illustre le format des données d’entrée pour le peaufinage sur instructions dans Autopilot.

input,output "<prompt text>","<expected generated text>"
Note

Nous recommandons d’utiliser de jeux de données d’un minimum de 1 000 lignes pour garantir un apprentissage efficace et des performances optimales du modèle.

En outre, Autopilot définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.

  • Les limites du nombre de lignes d’un jeu de données s’appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, même quand il y a plusieurs fichiers. Si deux types de canaux sont définis (un pour l’entraînement et un pour la validation), la limite s’applique au nombre total de lignes de l’ensemble des jeux de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.

  • Lorsque la longueur de l’entrée ou de la sortie d’une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, Autopilot met la tâche en échec avec une erreur de validation.

Le tableau suivant présente ces limites pour chaque modèle.

JumpStart ID du modèle BaseModelName dans la demande d’API Limite de ligne Limite de longueur du contexte
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10 000 lignes 1 024 jetons
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10 000 lignes 1 024 jetons
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10 000 lignes 1 024 jetons
huggingface-llm-falcon-7b-bf16 Falcon7B 1 000 lignes 1 024 jetons
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1 000 lignes 1 024 jetons
huggingface-llm-falcon-40b-bf16 Falcon40B 10 000 lignes 1 024 jetons
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10 000 lignes 1 024 jetons
huggingface-text2text-flan-t5-large FlanT5L 10 000 lignes 1 024 jetons
huggingface-text2text-flan-t5-xl FlanT5XL 10 000 lignes 1 024 jetons
huggingface-text2text-flan-t5-xxll FlanT5XXL 10 000 lignes 1 024 jetons
meta-textgeneration-llama-2-7b Llama2-7B 10 000 lignes 2 048 jetons
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10 000 lignes 2 048 jetons
meta-textgeneration-llama-2-13b Llama2-13B 7 000 lignes 2 048 jetons
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7 000 lignes 2 048 jetons
huggingface-llm-mistral-7b Mistral7B 10 000 lignes 2 048 jetons
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10 000 lignes 2 048 jetons
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10 000 lignes 1 024 jetons
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10 000 lignes 1 024 jetons