直接偏好最佳化 (DPO) - Amazon Nova

直接偏好最佳化 (DPO)

DPO 是一種進階技術,可根據人類偏好而非固定標籤來微調模型。它使用配對範例,其中人類已指出哪個回應較適合給定的提示詞。此模型會學習產生符合這些偏好的輸出,協助改善回應品質、減少有害輸出,以及更符合人類價值。DPO 對於在初始 SFT 之後精簡模型行為尤其有價值。

提供全秩 DPO 和低秩適應器 (LoRA) DPO。

如需搭配 Amazon Nova 模型自訂使用 DPO 的詳細説明,請參閱《SageMaker 使用者指南》中的直接偏好最佳化 (DPO) 一節。