Optimisation de politique proximale (PPO)
L’optimisation de politique proximale (PPO) est le processus qui consiste à utiliser plusieurs modèles de machine learning pour entraîner et noter un modèle. Le processus PPO comprend cinq éléments clés :
-
Modèle d’entraînement d’acteur (ou modèle de politique) : un modèle de peaufinage supervisé (SFT) qui est ajusté et mis à jour à chaque époque. Les mises à jour sont effectuées en échantillonnant les invites, en générant des complétions et en mettant à jour les poids à l’aide d’un objectif de substitution tronqué. Cela limite la variation de la rentabilité journalière par jeton afin que chaque étape de la politique soit proximale à la précédente, préservant ainsi la stabilité de l’entraînement.
-
Modèle de génération d’acteur : modèle qui génère des complétions ou des réponses aux invites qui seront évaluées par le modèle de récompense et le modèle critique. Les poids de ce modèle sont mis à jour à partir du modèle d’entraînement ou de politique de l’acteur à chaque époque.
-
Modèle de récompense : modèle avec des poids fixes (gelés) utilisé pour noter le modèle de génération d’acteur, fournissant un retour d’information sur la qualité de la réponse.
-
Modèle critique : modèle avec des poids entraînables (non gelés) utilisé pour noter le modèle de génération d’acteur. Cette note est souvent considérée comme une estimation de la récompense totale que l’acteur reçoit lorsqu’il génère les tokens restants dans une séquence.
-
Modèle d’ancrage : modèle SFT avec des poids figés qui est utilisé pour calculer la divergence de Kullback-Leibler (KL) entre le modèle à entraîner de l’acteur et le modèle de base d’origine. Le modèle d’ancrage garantit que les mises à jour du modèle d’acteur ne sont pas trop radicales par rapport au modèle de base. Des changements radicaux peuvent entraîner une instabilité ou une dégradation des performances.
Ensemble, ces composants créent un système d’apprentissage par renforcement sophistiqué qui peut optimiser les résultats du modèle linguistique en fonction de critères de récompense définis tout en maintenant une dynamique d’entraînement stable.
Pour obtenir des instructions détaillées sur l’utilisation de PPO avec la personnalisation du modèle Amazon Nova, consultez la section Optimisation de la politique proximale (PPO) du guide d’utilisation SageMaker.