Format et exigences des données de formation API de fichiers Caractéristiques des données d'entraînement efficaces Propriétés supplémentaires

Préparer les données pour les modèles à pondération ouverte

Lorsque vous affinez des modèles à poids ouvert en ajustant le renforcement à l'aide d' OpenAI-compatible API, fournissez des données d'entraînement en apportant vos propres instructions au format JSONL dans ce but. fine-tune

Format et exigences des données de formation

Les données de formation doivent suivre le format de complétion des discussions OpenAI avec 100 à 20 000 exemples. Chaque exemple de formation contient :

messages: Dans ce champ, incluez le rôle d'utilisateur, de système ou d'assistant contenant l'invite de saisie fournie au modèle.
reference_answer: Dans ce champ, il doit contenir le résultat attendu ou les critères d'évaluation que votre fonction de récompense utilise pour évaluer la réponse du modèle. Il ne se limite pas aux sorties structurées : il peut contenir n'importe quel format permettant à votre fonction de récompense d'évaluer la qualité.
[Facultatif] Vous pouvez ajouter des champs utilisés par l'évaluateur Lambda pour la notation.

Prérequis:

Format JSONL avec instructions au format d'achèvement du chat OpenAI (une invite par ligne)
L'objectif doit être défini sur fine-tune
Un minimum de 100 enregistrements dans l'ensemble de données de formation
Amazon Bedrock valide automatiquement le format du jeu de données d'entraînement

API de fichiers

Vous pouvez utiliser l'API OpenAI-compatible des fichiers pour télécharger vos données d'entraînement afin de peaufiner les tâches. Les fichiers sont stockés en toute sécurité dans Amazon Bedrock et sont utilisés lors de la création de tâches de peaufinage. Pour obtenir des informations complètes sur l'API, consultez la documentation relative aux OpenAI fichiers.

Pour télécharger un fichier de formation, choisissez l'onglet correspondant à votre méthode préférée, puis suivez les étapes suivantes :

Pour récupérer les informations relatives à un fichier spécifique, choisissez l'onglet correspondant à votre méthode préférée, puis suivez les étapes suivantes :

Pour répertorier les fichiers téléchargés, choisissez l'onglet correspondant à votre méthode préférée, puis suivez les étapes suivantes :

Pour supprimer un fichier, choisissez l'onglet correspondant à votre méthode préférée, puis suivez les étapes suivantes :

Caractéristiques des données d'entraînement efficaces

Des données d'entraînement RFT efficaces nécessitent trois caractéristiques clés :

Clarté et cohérence : utilisez des instructions claires et sans ambiguïté avec un formatage uniforme. Évitez les étiquettes contradictoires, les instructions ambiguës ou les réponses de référence contradictoires qui induisent en erreur la formation.
Diversité : incluez différents formats de saisie, scénarios extrêmes et niveaux de difficulté qui reflètent les modèles d'utilisation de la production selon les différents types d'utilisateurs et scénarios.
Fonctions de récompense efficaces — Concevez des fonctions qui s'exécutent rapidement (en quelques secondes, et non en minutes), sont parallélisées et AWS Lambda fournissent des scores cohérents pour un entraînement rentable.

Propriétés supplémentaires

Le format de données RFT prend en charge les champs personnalisés au-delà des exigences de base du schéma (messagesetreference_answer). Cette flexibilité vous permet d'ajouter toutes les données supplémentaires dont votre fonction de récompense a besoin pour une évaluation correcte.

Note

Vous n'avez pas besoin de le configurer dans votre recette. Le format de données prend en charge de manière inhérente des champs supplémentaires. Il suffit de les inclure dans le JSON de vos données d'entraînement, et elles seront transmises à votre fonction de récompense metadata sur le terrain.

Propriétés supplémentaires communes

task_id— Identifiant unique pour le suivi
difficulty_level— Indicateur de complexité du problème
domain— Domaine ou catégorie
expected_reasoning_steps— Nombre d'étapes de la solution

Ces champs supplémentaires sont transmis à votre fonction de récompense lors de l'évaluation, ce qui permet une logique de notation sophistiquée adaptée à votre cas d'utilisation spécifique.

Exemples avec des propriétés supplémentaires

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Accès et sécurité

Configuration des fonctions de récompense