Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Réglage précis supervisé sur 2.0 Amazon Nova
Présentation de
Amazon NovaLes données SFT 2.0 utilisent le même format d'API Converse que la Amazon Nova version 1.0, avec l'ajout de champs de contenu de raisonnement facultatifs. Pour les spécifications de format complètes, voir le schéma ReasoningContentBlockde l'API Converse.
Fonctionnalités prises en charge
Types de saisie : texte, image ou vidéo dans les blocs de contenu utilisateur
Contenu de l'assistant — Réponses sous forme de texte uniquement et contenu de raisonnement
Composition du jeu de données — Doit être homogène. Choisissez l'une des options suivantes : virages textuels uniquement, tournages texte+image ou texte+vidéo
Important
Vous ne pouvez pas mélanger des images et des vidéos dans le même jeu de données ou sur différents tours.
Limitations actuelles
Utilisation des outils — Bien que l'utilisation des outils soit prise en charge dans le format d'entrée, elle n'est actuellement pas prise en charge par Amazon Nova 2.0 SFT. L'ajout de sections d'outils peut entraîner l'échec de votre tâche.
Contenu de raisonnement multimodal — Bien que le format Converse prenne en charge le contenu de raisonnement basé sur des images, celui-ci n'est pas pris en charge par Amazon Nova 2.0 SFT.
Ensembles de validation — La fourniture d'un ensemble de validation peut être prise en charge via l'interface utilisateur mais ne le sera pas pendant la formation SFT.
Formats multimédias pris en charge
Images — PNG, JPEG, GIF
Vidéos — MOV, MKV, MP4
Exemples de formats de données
Modes de raisonnement et de non-raisonnement
Comprendre le contenu du raisonnement : le contenu du raisonnement (également appelé chain-of-thought) capture les étapes de réflexion intermédiaires du modèle avant de générer une réponse finale. À votre assistant tour, utilisez le reasoningContent champ pour inclure ces traces de raisonnement.
Comment est calculée la perte :
Avec un contenu de raisonnement — La perte d'entraînement inclut à la fois des jetons de raisonnement et des jetons de résultat final
Sans raisonnement, contenu : la perte d'entraînement est calculée uniquement sur les jetons de sortie finaux
Vous pouvez inclure reasoningContent plusieurs tours d'assistant dans des conversations à plusieurs tours.
Quand activer le mode raisonnement
Définissez reasoning_enabled: true dans votre configuration d'entraînement le moment où vous souhaitez que le modèle génère des jetons de réflexion avant de produire les résultats finaux ou si vous avez besoin de meilleures performances pour des tâches de raisonnement complexes.
Note
Vous pouvez activer le mode raisonnement, que vos données d'entraînement contiennent ou non du contenu de raisonnement. Cependant, il est recommandé d'inclure des traces de raisonnement dans vos données d'entraînement afin que le modèle puisse tirer des leçons de ces exemples et améliorer la qualité du raisonnement.
À définir reasoning_enabled: false lorsque vous vous entraînez sur des tâches simples qui ne nécessitent pas d'étapes de raisonnement explicites ou lorsque vous souhaitez optimiser la vitesse et réduire l'utilisation de jetons.
Directives de formatage
Utilisez du texte brut pour raisonner le contenu.
Évitez les balises de balisage telles que
<thinking>et</thinking>sauf si cela est spécifiquement requis par votre tâche.Assurez-vous que le contenu du raisonnement est clair et pertinent pour le processus de résolution des problèmes.
Génération de données de raisonnement
Si votre jeu de données ne contient pas de traces de raisonnement, vous pouvez les créer à l'aide d'un modèle capable de raisonner tel que. Fournissez vos paires d'entrées-sorties au modèle et capturez son processus de raisonnement pour créer un ensemble de données augmenté par le raisonnement.
Utiliser des jetons de raisonnement pour l'entraînement
Lorsque le mode raisonnement est activé lors de l'entraînement, le modèle apprend à séparer le raisonnement interne de la réponse finale. Le processus de formation effectue les opérations suivantes :
Organise les données sous forme de triples : saisie, raisonnement et réponse
Optimise à l'aide de la prédiction standard du jeton suivant les pertes causées à la fois par les jetons de raisonnement et de réponse
Encourage le modèle à raisonner en interne avant de générer des réponses
Contenu de raisonnement efficace
Un contenu de raisonnement de haute qualité doit inclure les éléments suivants :
Réflexions et analyses intermédiaires
Déductions logiques et étapes d'inférence
Step-by-step approches de résolution de problèmes
Liens explicites entre les étapes et les conclusions
Cela aide le modèle à développer la capacité de réfléchir avant de répondre.
Directives pour la préparation des jeux
Le tableau suivant fournit des instructions pour préparer votre jeu de données d'entraînement.
| Ligne directrice | Description |
|---|---|
| Taille et qualité |
|
| Diversité |
Incluez divers exemples qui permettent d'effectuer les opérations suivantes :
|
| Formatage de sortie |
Spécifiez clairement le format de sortie souhaité dans les réponses de l'assistant. Les exemples incluent les structures JSON, les tableaux, le format CSV ou les formats personnalisés spécifiques à votre application. |
| Conversations complexes |
|
| Liste de contrôle de qualité |
|