AWS DeepRacer 訓練演算法

近端政策最佳化 (PPO) 與軟執行器條件 (SAC)

演算法 SAC 和 PPO 同時學習政策和價值函數，但其策略有三種值得注意的方式：

PPO	SAC
適用於離散和連續的動作空間	在連續動作空間中運作
政策上	政策外
使用熵正規化	將熵新增至最大化目標

穩定與資料忙碌

探索環境時，PPO 和 SAC 演算法政策所學到的資訊使用方式不同。PPO 使用政策上學習，這表示它從探索環境的目前政策所做的觀察中學習其值函數。SAC 使用政策外學習，這表示它可以使用先前政策探索環境所做的觀察。政策外和政策上學習之間的權衡通常是穩定性與資料效率的比較。政策上演算法往往更穩定，但資料很忙碌，而政策外演算法往往相反。

探索與利用

探索與利用是 RL 中的關鍵挑戰。演算法應該利用先前經驗的已知資訊來實現更高的累積獎勵，但還需要探索以獲得新的體驗，以便在未來尋找最佳政策。由於政策經過多次反覆運算的訓練，並進一步了解環境，因此對於為特定觀察選擇動作會更確定。不過，如果政策不夠探索，即使資訊未處於最佳狀態，它仍可能會遵守已學習的資訊。PPO 演算法使用熵正規化來鼓勵探勘，這可防止客服人員收斂至本機光暈。SAC 演算法透過將熵新增至其最大化目標，在探勘和利用之間取得卓越的平衡。

Entropy

在這種情況下，「熵」是衡量政策中不確定性的指標，因此可以解釋為衡量政策在為指定狀態選擇動作時的可信度。熵較低的政策對於選擇動作非常有信心，而熵較高的政策不確定要選擇哪個動作。

SAC 演算法的熵最大化策略具有與 PPO 演算法使用熵作為正規化器類似的優點。與 PPO 一樣，它鼓勵更廣泛的探索，並透過鼓勵代理程式選擇具有較高熵的動作，避免收斂至錯誤的本機最佳。與熵調節不同，熵最大化具有獨特的優勢。它傾向於放棄選擇不承諾行為的政策，這是 SAC 演算法傾向於比 PPO 更具資料效率的另一個原因。

使用 SAC Alpha 超參數來調校 SAC 中的熵數量。最大 SAC alpha 熵值 (1.0) 有利於探勘。最小值 (0.0) 會復原標準 RL 目標，並中和激勵探索的熵獎勵。開始使用進行實驗的良好 SAC Alpha 值為 0.5。在模型上反覆運算時相應地調校。

嘗試 PPO 和 SAC 演算法、試驗其超參數，並在不同的動作空間中探索它們。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

動作空間和獎勵函數

AWS DeepRacer 工作流程