Ottimizzazione prossimale delle policy (PPO) - Amazon Nova

Ottimizzazione prossimale delle policy (PPO)

L’ottimizzazione prossimale delle policy (Proximal Policy Optimization, PPO) è il processo di utilizzo di diversi modelli di machine learning per addestrare e assegnare un punteggio a un modello. Il processo PPO prevede cinque componenti chiave:

  • Modello di addestramento attori (o modello di policy): un modello di fine-tuning supervisionato (SFT) che viene sottoposto a fine-tuning e aggiornato a ogni epoch. Gli aggiornamenti vengono effettuati campionando prompt, generando completamenti e aggiornando i pesi utilizzando un obiettivo sostitutivo limitato. Ciò limita la modifica della redditività dei log per token in modo che ogni fase della policy sia prossimale a quella precedente, preservando la stabilità dell’addestramento.

  • Modello di generazione attori: un modello che genera completamenti o risposte a prompt da giudicare in base al modello di ricompensa e al modello di critica. I pesi di questo modello vengono aggiornati in base al modello di addestramento attori o al modello di policy di ogni epoch.

  • Modello di ricompensa: un modello con pesi fissi (ibernati) che viene utilizzato per dare un punteggio al modello di generazione attori, fornendo feedback sulla qualità della risposta.

  • Modello di critica: un modello con pesi addestrabili (non ibernati) che viene utilizzato per dare un punteggio al modello di generazione attori. Questo punteggio viene spesso visto come una stima della ricompensa totale che l’attore riceve quando genera i token rimanenti in una sequenza.

  • Modello di ancoraggio: un modello SFT con pesi ibernati utilizzato per calcolare la divergenza Kullback-Leibler (KL) tra il modello di addestramento attori e il modello di base originale. Il modello di ancoraggio garantisce che gli aggiornamenti al modello di attore non siano troppo drastici rispetto al modello di base. Cambiamenti drastici possono portare a instabilità o a una riduzione delle prestazioni.

Insieme, questi componenti creano un sofisticato sistema di apprendimento di rinforzo in grado di ottimizzare gli output del modello linguistico in base a criteri di ricompensa definiti, mantenendo al contempo dinamiche di addestramento stabili.

Per istruzioni dettagliate sull’uso della DPO con la personalizzazione del modello di Amazon Nova, consulta la sezione Proximal Policy Optimization (PPO) della Guida per l’utente di SageMaker.