Optimisation directe des préférences (DPO) - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation directe des préférences (DPO)

Optimisation directe des préférences (DPO)

Le DPO est une technique avancée qui permet d'affiner les modèles en fonction des préférences humaines plutôt que d'étiquettes fixes. Il utilise des exemples par paires où les humains ont indiqué quelle réponse est la meilleure pour une invite donnée. Le modèle apprend à générer des résultats conformes à ces préférences, ce qui contribue à améliorer la qualité des réponses, à réduire les résultats nocifs et à mieux correspondre aux valeurs humaines. Le DPO est particulièrement utile pour affiner le comportement du modèle après le SFT initial.

Pour obtenir des instructions détaillées sur l'utilisation de DPO dans le cadre de la personnalisation du modèle Amazon Nova, consultez la section Direct Preference Optimization (DPO) du guide de l'utilisateur d'Amazon Nova.