Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation des politiques proximales (PPO)
L'optimisation des politiques proximales (PPO) est une technique avancée qui utilise plusieurs modèles d'apprentissage automatique travaillant ensemble pour former et améliorer un modèle de langage. Le processus PPO comprend cinq éléments clés :
-
Le modèle Actor Train (ou modèle de politique) est un modèle affiné supervisé qui fait l'objet de mises à jour continues à chaque période de formation. Ces mises à jour sont soigneusement contrôlées à l'aide d'un objectif de substitution précis qui limite l'ampleur des modifications que le modèle peut apporter à chaque étape, garantissant ainsi la stabilité de la formation en maintenant les mises à jour des politiques « proches » des versions précédentes.
-
Le modèle de génération d'acteurs produit des réponses aux demandes qui sont ensuite évaluées par d'autres modèles du système. Les poids de ce modèle sont synchronisés avec le modèle Actor Train au début de chaque époque.
-
Le modèle de récompense a des poids fixes (figés) et attribue des scores aux résultats créés par le modèle de génération d'acteurs, fournissant ainsi des informations sur la qualité des réponses.
-
Le modèle critique a des poids pouvant être entraînés et évalue les résultats du modèle de génération d'acteurs, en estimant la récompense totale que l'acteur pourrait recevoir pour avoir généré les jetons restants dans une séquence.
-
Le modèle d'ancrage est un modèle affiné supervisé figé qui permet de calculer la divergence de Kullback-Leibler (KL) entre le modèle Actor Train et le modèle de base d'origine. Ce composant empêche le modèle Actor Train de s'écarter trop fortement du comportement du modèle de base, ce qui pourrait entraîner une instabilité ou des problèmes de performances.
Ensemble, ces composants créent un système d'apprentissage par renforcement sophistiqué capable d'optimiser les résultats des modèles linguistiques en fonction de critères de récompense définis tout en maintenant une dynamique d'entraînement stable.
Pour obtenir des instructions détaillées sur l'utilisation du PPO avec la personnalisation du modèle Amazon Nova, consultez la section Proximal Policy Optimization (PPO) du guide de l'utilisateur d'Amazon Nova.