本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
直接偏好設定最佳化 (DPO)
直接偏好設定最佳化 (DPO)
DPO 是一種進階技術,可根據人類偏好而非固定標籤來微調模型。它使用配對範例,其中人類已指出哪個回應更適合給定的提示。此模型會學習產生符合這些偏好設定的輸出,協助改善回應品質、減少有害輸出,以及更符合人類值。DPO 對於在初始 SFT 之後精簡模型行為特別重要。
如需搭配 Amazon Nova 模型自訂使用 DPO 的詳細說明,請參閱 Amazon Nova 使用者指南中的直接偏好設定最佳化 (DPO) 一節。