Proximale Richtlinienoptimierung (PPO) - Amazon Nova

Proximale Richtlinienoptimierung (PPO)

Proximale Richtlinienoptimierung (PPO) ist der Prozess, bei dem mehrere Machine-Learning-Modelle verwendet werden, um ein Modell zu trainieren und zu bewerten. Der PPO-Prozess umfasst fünf Schlüsselkomponenten:

  • Akteurtrainingsmodell (oder Richtlinienmodell): Ein Modell der überwachten Feinabstimmung (SFT), das in jeder Epoche optimiert und aktualisiert wird. Die Aktualisierungen erfolgen durch Stichproben von Prompts, Generierung von Vervollständigungen und Aktualisierung der Gewichtungen unter Verwendung eines beschnittenen Ersatzziels. Dadurch wird die Veränderung der Protokollrentabilität pro Token begrenzt, sodass jeder Richtlinienschritt nahe am vorherigen liegt und die Stabilität des Trainings gewahrt bleibt.

  • Modell zur Akteurgenerierung: Ein Modell, das Prompt-Ausführungen oder -Antworten generiert, die anhand des Belohnungs- und des kritischen Modells bewertet werden. Die Gewichtungen dieses Modells werden in jeder Epoche anhand des Akteurtrainings- oder Richtlinienmodells aktualisiert.

  • Belohnungsmodell: Ein Modell mit festen (eingefrorenen) Gewichtungen, das zur Bewertung des Modells zur Akteurgenerierung verwendet wird, mit Feedback zur Antwortqualität.

  • Kritisches Modell: Ein Modell mit trainierbaren (nicht eingefrorenen) Gewichtungen, das zur Bewertung des Modells zur Akteurgenerierung verwendet wird. Diese Bewertung wird oft als Schätzung der Gesamtbelohnung angesehen, die der Akteur erhält, wenn er die verbleibenden Token in einer Sequenz generiert.

  • Ankermodell: Ein SFT-Modell mit eingefrorenen Gewichtungen, das zur Berechnung der Kullback-Leibler-Divergenz (KL) zwischen dem Akteurtrainingsmodell und dem ursprünglichen Basismodell verwendet wird. Das Ankermodell stellt sicher, dass die Aktualisierungen des Akteurmodells im Vergleich zum Basismodell nicht zu drastisch ausfallen. Drastische Änderungen können zu Instabilität oder Leistungseinbußen führen.

Zusammen bilden diese Komponenten ein hochentwickeltes System für Reinforcement Learning, das die Ergebnisse von Sprachmodellen auf der Grundlage definierter Belohnungskriterien optimieren kann und gleichzeitig eine stabile Trainingsdynamik aufrechterhält.

Ausführliche Anweisungen zur Verwendung von PPO mit der Amazon-Nova-Modellanpassung finden Sie im Abschnitt Proximale Richtlinienoptimierung (PPO) des SageMaker-Benutzerhandbuchs.