Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Optimización proximal de políticas (PPO)
La optimización proximal de políticas (PPO) es una técnica avanzada que emplea varios modelos de aprendizaje automático que trabajan juntos para entrenar y mejorar un modelo lingüístico. El proceso de la PPO incluye cinco componentes clave:
-
El modelo Actor Train (o modelo de políticas) es un modelo supervisado y ajustado que se actualiza continuamente durante cada época de formación. Estas actualizaciones se controlan minuciosamente mediante un objetivo provisional que limita los cambios que puede sufrir el modelo en cada etapa, lo que garantiza la estabilidad del entrenamiento al mantener las actualizaciones de las políticas «próximas» a las versiones anteriores.
-
El modelo de generación de actores produce respuestas a las solicitudes que luego son evaluadas por otros modelos del sistema. Los pesos de este modelo se sincronizan con el modelo Actor Train al principio de cada época.
-
El modelo de recompensa tiene pesos fijos (congelados) y asigna puntuaciones a los resultados creados por el modelo de generación de actores, lo que proporciona información sobre la calidad de la respuesta.
-
El modelo crítico tiene pesos entrenables y evalúa los resultados del modelo de generación de actores, estimando la recompensa total que el actor podría recibir por generar las fichas restantes en una secuencia.
-
El modelo Anchor es un modelo fijo, supervisado y ajustado que ayuda a calcular la divergencia entre Kullback-Leibler (KL) y el modelo base original. Este componente evita que el modelo Actor Train se desvíe demasiado del comportamiento del modelo base, lo que podría provocar inestabilidad o problemas de rendimiento.
Juntos, estos componentes crean un sofisticado sistema de aprendizaje por refuerzo que puede optimizar los resultados del modelo lingüístico en función de criterios de recompensa definidos y, al mismo tiempo, mantener una dinámica de entrenamiento estable.
Para obtener instrucciones detalladas sobre el uso de PPO con la personalización de modelos de Amazon Nova, consulte la sección Proximal Policy Optimization (PPO) de la guía del usuario de Amazon Nova.