Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione diretta delle preferenze (DPO)
Ottimizzazione diretta delle preferenze (DPO)
Il DPO è una tecnica avanzata che perfeziona i modelli in base alle preferenze umane anziché alle etichette fisse. Utilizza esempi accoppiati in cui gli esseri umani hanno indicato quale risposta è migliore per un determinato prompt. Il modello impara a generare output in linea con queste preferenze, contribuendo a migliorare la qualità della risposta, ridurre gli output dannosi e allinearsi meglio con i valori umani. Il DPO è particolarmente utile per affinare il comportamento del modello dopo l'SFT iniziale.
Per istruzioni dettagliate sull'uso di DPO con la personalizzazione del modello Amazon Nova, consulta la sezione Direct Preference Optimization (DPO) della guida per l'utente di Amazon Nova.