近端政策最佳化 (PPO) - Amazon Nova

近端政策最佳化 (PPO)

近端政策最佳化 (PPO) 是使用數個機器學習模型訓練並評分一個模型的過程。PPO 程序涉及五個關鍵元件:

  • 行動者訓練模型 (也稱策略模型):監督式微調 (SFT) 模型,每個 epoch 都會被微調和更新。進行更新的方式是抽樣提示、生成補全,然後使用截斷代理目標來更新權重。這會限制每個詞元的對數盈利能力變化,讓每個策略步驟都接近上個步驟,以保持訓練穩定性。

  • 行動者產生模型:此模型會產生要由獎勵模型和評論家模型評審的提示詞完成或回應。此模型的權重會在每次 epoch 時從行動者訓練模型或策略模型進行更新。

  • 獎勵模型:此模型具有固定 (凍結) 權重,用於對行動者產生模型進行評分,提供關於回應品質的意見回饋。

  • 評論家模型:此模型具有可訓練 (未凍結) 權重,用於對行動者產生模型進行評分。此分數通常視為在生成序列中的剩餘記號時行動者獲得的總獎勵預估值。

  • 錨點模型:具有凍結權重的 SFT 模型,用於計算行動者訓練模型和原始基本模型之間的 Kullback-Leibler (KL) 散度。錨點模型可確保與基本模型相比,行動者模型的更新不會過於劇烈。劇烈變更可能會導致不穩定性或效能降低

這些元件共同建立了一個複雜的強化學習系統,可根據定義的獎勵標準最佳化語言模型輸出,同時維持穩定的訓練動態。

如需搭配 Amazon Nova 模型自訂使用 PPO 的詳細說明,請參閱《SageMaker 使用者指南》中的近端政策最佳化 (PPO) 一節。