Ottimizzazione diretta delle preferenze (DPO) - Amazon Nova

Ottimizzazione diretta delle preferenze (DPO)

L’ottimizzazione diretta delle preferenze (DPO) è una tecnica avanzata che prevede di eseguire il fine-tuning dei modelli in base alle preferenze umane e non a etichette fisse. Utilizza esempi associati in cui esseri umani hanno indicato qual è la risposta migliore per un determinato prompt. Il modello impara a generare output in linea con queste preferenze, contribuendo a migliorare la qualità delle risposte, a ridurre gli output dannosi e a essere sempre più in linea con i valori umani. La DPO è particolarmente utile per affinare il comportamento del modello dopo il fine-tuning supervisionato (SFT) iniziale.

Sono disponibili processi DPO a dimensionalità completa e LoRA (Low Rank Adapter).

Per istruzioni dettagliate sull’uso della DPO con la personalizzazione del modello Amazon Nova, consulta la sezione Direct Preference Optimization (DPO) della Guida per l’utente di SageMaker.