Proximal Policy Optimization (PPO) - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Proximal Policy Optimization (PPO)

Proximal Policy Optimization (PPO) ist eine fortschrittliche Technik, bei der mehrere Modelle des maschinellen Lernens zusammenarbeiten, um ein Sprachmodell zu trainieren und zu verbessern. Der PPO-Prozess umfasst fünf Schlüsselkomponenten:

  • Das Actor Train Model (oder politisches Modell) ist ein überwachtes, fein abgestimmtes Modell, das in jeder Ausbildungsepoche kontinuierlich aktualisiert wird. Diese Aktualisierungen werden sorgfältig kontrolliert, wobei ein begrenztes Surrogatziel verwendet wird, das begrenzt, wie stark sich das Modell bei jedem Schritt ändern kann, wodurch die Stabilität des Trainings gewährleistet wird, indem die Aktualisierungen der Richtlinien „in der Nähe“ früherer Versionen gehalten werden.

  • Das Actor Generation Model generiert Antworten auf Eingabeaufforderungen, die dann von anderen Modellen im System ausgewertet werden. Die Gewichte dieses Modells werden zu Beginn jeder Epoche mit dem Actor Train Model synchronisiert.

  • Das Prämienmodell hat feste (eingefrorene) Gewichtungen und weist den durch das Actor Generation Model erzeugten Ergebnissen Punktzahlen zu, sodass Feedback zur Qualität der Antworten gegeben wird.

  • Das Kritikermodell verfügt über trainierbare Gewichte und bewertet die Ergebnisse des Actor Generation Model. Dabei wird die Gesamtbelohnung geschätzt, die der Akteur für die Generierung der verbleibenden Tokens in einer Sequenz erhalten könnte.

  • Das Anchor-Modell ist ein eingefrorenes, überwachtes, fein abgestimmtes Modell, mit dessen Hilfe die Kullback-Leibler-Divergenz (KL) zwischen dem Actor Train Model und dem ursprünglichen Basismodell berechnet werden kann. Diese Komponente verhindert, dass das Actor Train Model zu stark vom Verhalten des Basismodells abweicht, was zu Instabilität oder Leistungsproblemen führen könnte.

Zusammen bilden diese Komponenten ein ausgeklügeltes Reinforcement-Learning-System, das die Ergebnisse des Sprachmodells auf der Grundlage definierter Belohnungskriterien optimieren und gleichzeitig eine stabile Trainingsdynamik aufrechterhalten kann.

Detaillierte Anweisungen zur Verwendung von PPO mit der Amazon Nova-Modellanpassung finden Sie im Abschnitt Proximal Policy Optimization (PPO) im Amazon Nova-Benutzerhandbuch.