Types de fichiers de jeux de données Format des données en entrée

Types de fichiers de jeux de données et format des données d’entrée

Le réglage précis basé sur les instructions utilise des ensembles de données étiquetés pour améliorer les performances des tâches de traitement du langage naturel ( LLMs NLP) préentraînées. Les exemples étiquetés sont présentés sous forme de paires invite-réponse et formulés comme des instructions.

Pour en savoir plus sur les types de fichiers de jeux de données pris en charge, consultez Types de fichiers de jeu de données pris en charge.

Pour en savoir plus sur le format des données d’entrée, consultez Format des données d’entrée pour le peaufinage sur instructions.

Types de fichiers de jeu de données pris en charge

Autopilot prend en charge les jeux de données de peaufinage sur instructions au format de fichiers CSV (par défaut) ou de fichiers Parquet.

CSV (valeurs séparées par des virgules) est un format de fichier basé sur les lignes qui stocke les données en texte brut lisible par l’utilisateur, un choix populaire pour l’échange de données, car il est pris en charge par un large éventail d’applications.
Parquet est un format de fichier binaire basé sur des colonnes, dans lequel les données sont stockées et traitées plus efficacement que dans les formats de fichiers basés sur des lignes, comme CSV. Il s’agit d’un meilleure option pour les problèmes de big data.

Note

Le jeu de données peut être composé de plusieurs fichiers, dont chacun doit respecter un modèle spécifique. Pour en savoir plus sur la façon de formater vos données d’entrée, consultez Format des données d’entrée pour le peaufinage sur instructions.

Format des données d’entrée pour le peaufinage sur instructions

Chaque fichier du jeu de données doit respecter le format suivant :

Le jeu de données doit contenir exactement deux colonnes nommées et séparées par des virgules, input et output. Autopilot n’autorise aucune colonne supplémentaire.
La colonne input contient les invites, et la colonne output correspondante contient la réponse attendue. Les colonnes input et output sont toutes deux au format chaîne.

L’exemple suivant illustre le format des données d’entrée pour le peaufinage sur instructions dans Autopilot.


input,output
"<prompt text>","<expected generated text>"

Note

Nous recommandons d’utiliser de jeux de données d’un minimum de 1 000 lignes pour garantir un apprentissage efficace et des performances optimales du modèle.

En outre, Autopilot définit une limite maximale du nombre de lignes dans le jeu de données et de la longueur du contexte en fonction du type de modèle utilisé.

Les limites du nombre de lignes d’un jeu de données s’appliquent au nombre cumulé de lignes dans tous les fichiers du jeu de données, même quand il y a plusieurs fichiers. Si deux types de canaux sont définis (un pour l’entraînement et un pour la validation), la limite s’applique au nombre total de lignes de l’ensemble des jeux de données des deux canaux. Lorsque le nombre de lignes dépasse le seuil, la tâche échoue avec une erreur de validation.
Lorsque la longueur de l’entrée ou de la sortie d’une ligne du jeu de données dépasse la limite définie dans le contexte du modèle de langage, elle est automatiquement tronquée. Si plus de 60 % des lignes du jeu de données sont tronquées, que ce soit en entrée ou en sortie, Autopilot met la tâche en échec avec une erreur de validation.

Le tableau suivant présente ces limites pour chaque modèle.

JumpStart ID du modèle	`BaseModelName` dans la demande d’API	Limite de ligne	Limite de longueur du contexte
huggingface-textgeneration-dolly-v2-3b-bf16	`Dolly3B`	10 000 lignes	1 024 jetons
huggingface-textgeneration-dolly-v2-7b-bf16	`Dolly7B`	10 000 lignes	1 024 jetons
huggingface-textgeneration-dolly-v2-12b-bf16	`Dolly12B`	10 000 lignes	1 024 jetons
huggingface-llm-falcon-7b-bf16	`Falcon7B`	1 000 lignes	1 024 jetons
huggingface-llm-falcon-7b-instruct-bf16	`Falcon7BInstruct`	1 000 lignes	1 024 jetons
huggingface-llm-falcon-40b-bf16	`Falcon40B`	10 000 lignes	1 024 jetons
huggingface-llm-falcon-40b-instruct-bf16	`Falcon40BInstruct`	10 000 lignes	1 024 jetons
huggingface-text2text-flan-t5-large	`FlanT5L`	10 000 lignes	1 024 jetons
huggingface-text2text-flan-t5-xl	`FlanT5XL`	10 000 lignes	1 024 jetons
huggingface-text2text-flan-t5-xxll	`FlanT5XXL`	10 000 lignes	1 024 jetons
meta-textgeneration-llama-2-7b	`Llama2-7B`	10 000 lignes	2 048 jetons
meta-textgeneration-llama-2-7b-f	`Llama2-7BChat`	10 000 lignes	2 048 jetons
meta-textgeneration-llama-2-13b	`Llama2-13B`	7 000 lignes	2 048 jetons
meta-textgeneration-llama-2-13b-f	`Llama2-13BChat`	7 000 lignes	2 048 jetons
huggingface-llm-mistral-7b	`Mistral7B`	10 000 lignes	2 048 jetons
huggingface-llm-mistral-7b-instruct	`Mistral7BInstruct`	10 000 lignes	2 048 jetons
huggingface-textgeneration1-mpt-7b-bf16	`MPT7B`	10 000 lignes	1 024 jetons
huggingface-textgeneration1-mpt-7b-instruct-bf16	`MPT7BInstruct`	10 000 lignes	1 024 jetons

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Modèles pris en charge

Hyperparamètres