本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
近端政策最佳化 (PPO)
近端政策最佳化 (PPO) 是一種進階技術,採用多個機器學習模型一起合作來訓練和改善語言模型。PPO 程序包含五個關鍵元件:
-
Actor Train Model (或政策模型) 是受監督的微調模型,會在每次訓練 epoch 期間進行持續更新。系統會使用剪輯代理目標來仔細控制這些更新,該目標會限制模型在每個步驟中可以變更的程度,並透過將政策更新「近端」至先前版本來確保訓練穩定性。
-
行動者產生模型會產生對提示的回應,然後由系統中的其他模型評估。此模型的權重會與每個 Epoch 開頭的演員訓練模型同步。
-
獎勵模型具有固定 (凍結) 權重,並將分數指派給演員產生模型建立的輸出,提供回應品質的意見回饋。
-
關鍵模型具有可訓練的權重,並評估演員生成模型的輸出,估計演員在序列中產生剩餘權杖時可能獲得的總獎勵。
-
Anchor 模型是凍結的監督微調模型,可協助計算演員訓練模型與原始基礎模型之間的 Kullback-Leibler (KL) 差異。此元件可防止 Actor Train Model 過度偏離基礎模型的行為,這可能會導致不穩定或效能問題。
這些元件共同建立複雜的強化學習系統,可根據定義的獎勵標準最佳化語言模型輸出,同時維持穩定的訓練動態。
如需搭配 Amazon Nova 模型自訂使用 PPO 的詳細說明,請參閱 Amazon Nova 使用者指南中的近端政策最佳化 (PPO) 一節。