Direkte Präferenzoptimierung (DPO)
DPO ist eine fortgeschrittene Methode, die Modelle auf der Grundlage menschlicher Präferenzen statt fester Labels optimiert. Es werden gepaarte Beispiele verwendet, bei denen Menschen angegeben haben, welche Antwort für einen bestimmten Prompt besser geeignet ist. Das Modell lernt, Ausgaben zu generieren, die diesen Präferenzen entsprechen, was dazu beiträgt, die Antwortqualität zu verbessern, schädliche Ausgaben zu reduzieren und sich besser an menschlichen Werten auszurichten. DPO ist besonders nützlich, um das Modellverhalten nach der ersten SFT zu verfeinern.
Sowohl Full-Rank-DPO als auch Low-Rank Adapter (LoRa)-DPO sind verfügbar.
Ausführliche Anweisungen zur Verwendung von DPO mit der Amazon-Nova-Modellanpassung finden Sie im Abschnitt Direkte Präferenzoptimierung (DPO) des SageMaker-Benutzerhandbuchs.