Otimização de política proximal (PPO)
A otimização de política proximal (PPO) é o processo de usar vários modelos de machine learning para treinar e classificar um modelo. O processo de PPO envolve cinco componentes principais:
-
Modelo de treinamento de ator (ou modelo de política): um modelo de ajuste supervisionado (SFT) que é ajustado e atualizado a cada época. As atualizações são feitas por meio de amostragem de prompts, geração de conclusões e atualização de pesos usando um objetivo substituto recortado. Isso limita alterações de lucratividade de log por token, de modo que cada etapa da política seja proximal em relação à anterior, enquanto a estabilidade do treinamento é preservada.
-
Modelo de geração de ator: um modelo que gera conclusões ou respostas de prompts a serem julgadas pelo modelo de recompensa e pelo modelo crítico. Os pesos desse modelo são atualizados a partir do treinamento de ator ou do modelo de política a cada época.
-
Modelo de recompensa: um modelo com pesos fixos (congelados) usado para classificar o modelo de geração de ator, fornecendo feedback sobre a qualidade das respostas.
-
Modelo crítico: um modelo com pesos treináveis (descongelados) que é usado para classificar o modelo de geração de ator. Essa classificação geralmente é vista como uma estimativa da recompensa total que o ator recebe ao gerar os demais tokens de uma sequência.
-
Modelo âncora: um modelo com pesos congelados que é usado para calcular a divergência de Kullback-Leibler (KL) entre o modelo de treinamento de ator e o modelo básico original. O modelo-âncora garante que as atualizações do modelo de ator não sejam muito drásticas em comparação com o modelo básico. Alterações drásticas podem gerar instabilidade ou degradação de performance.
Juntos, esses componentes criam um sofisticado sistema de aprendizado por reforço que pode otimizar os resultados do modelo de idioma com base em critérios de recompensa definidos, mantendo uma dinâmica de treinamento estável.
Para obter instruções detalhadas sobre o uso de PPO com personalização de modelos do Amazon Nova, consulte a seção Proximal Policy Optimization (PPO) do SageMaker User Guide.