Optimisation directe des préférences (DPO)
La DPO est une technique avancée qui optimise les modèles en fonction des préférences humaines plutôt que des étiquettes fixes. Elle utilise des exemples appariés dans lesquels des humains ont indiqué quelle réponse était la meilleure pour une invite donnée. Le modèle apprend à générer des résultats qui correspondent à ces préférences, ce qui contribue à améliorer la qualité des réponses, à réduire les résultats nuisibles et à mieux s’aligner sur les valeurs humaines. La DPO est particulièrement utile pour affiner le comportement du modèle après le SFT initial.
La DPO à rang complet et la DPO à adaptateur à faible rang (LoRA) sont toutes deux disponibles.
Pour obtenir des instructions détaillées sur l’utilisation de la DPO avec la personnalisation du modèle Amazon Nova, veuillez consulter la section Optimisation directe des préférences (DPO) du guide SageMaker.