直接偏好最佳化 (DPO)

DPO 是一種進階技術，可根據人類偏好而非固定標籤來微調模型。它使用配對範例，其中人類已指出哪個回應較適合給定的提示詞。此模型會學習產生符合這些偏好的輸出，協助改善回應品質、減少有害輸出，以及更符合人類價值。DPO 對於在初始 SFT 之後精簡模型行為尤其有價值。

提供全秩 DPO 和低秩適應器 (LoRA) DPO。

如需搭配 Amazon Nova 模型自訂使用 DPO 的詳細説明，請參閱《SageMaker 使用者指南》中的直接偏好最佳化 (DPO) 一節。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

監督式微調 (完整 FT、PEFT)

近端政策最佳化 (PPO)