Ottimizzazione delle politiche prossimali (PPO) - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione delle politiche prossimali (PPO)

Proximal Policy Optimization (PPO) è una tecnica avanzata che impiega più modelli di machine learning che collaborano per addestrare e migliorare un modello linguistico. Il processo PPO prevede cinque componenti chiave:

  • L'Actor Train Model (o modello politico) è un modello supervisionato e perfezionato che viene sottoposto a continui aggiornamenti durante ogni epoca di formazione. Questi aggiornamenti sono controllati attentamente utilizzando un obiettivo sostitutivo ritagliato che limita le modifiche del modello in ogni fase, garantendo la stabilità dell'allenamento mantenendo gli aggiornamenti delle policy «prossimali» alle versioni precedenti.

  • L'Actor Generation Model produce risposte alle richieste che vengono poi valutate da altri modelli del sistema. I pesi di questo modello sono sincronizzati con l'Actor Train Model all'inizio di ogni epoca.

  • Il modello Reward ha pesi fissi (congelati) e assegna punteggi agli output creati dall'Actor Generation Model, fornendo un feedback sulla qualità della risposta.

  • Il Critic Model ha pesi addestrabili e valuta i risultati dell'Actor Generation Model, stimando la ricompensa totale che l'attore potrebbe ricevere per aver generato i token rimanenti in una sequenza.

  • L'Anchor Model è un modello Frozen supervisionato e ottimizzato che aiuta a calcolare la divergenza di Kullback-Leibler (KL) tra l'Actor Train Model e il modello base originale. Questo componente impedisce all'Actor Train Model di deviare troppo drasticamente dal comportamento del modello base, il che potrebbe causare instabilità o problemi di prestazioni.

Insieme, questi componenti creano un sofisticato sistema di apprendimento per rinforzo in grado di ottimizzare i risultati del modello linguistico sulla base di criteri di ricompensa definiti, mantenendo al contempo dinamiche di allenamento stabili.

Per istruzioni dettagliate sull'uso di PPO con la personalizzazione del modello Amazon Nova, consulta la sezione Proximal Policy Optimization (PPO) della guida per l'utente di Amazon Nova.