本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 AWS DeepRacer 學生中訓練強化學習模型
<a name="train-model"></a>

本演練示範如何在 AWS DeepRacer 學生中訓練您的第一個模型。它還提供一些有用的提示，協助您充分利用您的體驗並快速追蹤您的學習。

## 步驟 1：使用 AWS DeepRacer 學生訓練強化學習模型
<a name="student-league-train-model-proc"></a>

透過了解在何處尋找**建立模型**按鈕並開始訓練您的第一個模型，在 AWS DeepRacer 學生中開始您的旅程。請記住，建立和訓練模型是一個反覆程序。使用不同的演算法和獎勵函數進行實驗，以獲得最佳結果。

**訓練強化學習模型**

1. 在 AWS DeepRacer 學生**首頁**中，選擇**建立模型**。或者，在左側導覽窗格中導覽至**您的模型**。在**模型**頁面的**模型**中，選擇**建立模型**。

1. 在**概觀**頁面中，閱讀如何訓練強化模型。此頁面會說明程序中的每個步驟。閱讀完成後，請選擇**下一步**。

## 步驟 2：為您的模型命名
<a name="student-league-create-model-step-two"></a>

為您的模型命名。當您想要改善和複製模型時，提供模型唯一名稱以快速找到個別模型是很好的做法。例如，您可能想要使用命名慣例來命名模型，例如：*yourinitials-date-version*。

**為您的模型命名**

1. 在為您的**模型命名**頁面上，在**模型名稱欄位中輸入名稱**。
**注意**  
當您開始訓練模型時，模型的名稱會變成固定且無法再變更。

1. 選擇**下一步**。

## 步驟 3：選擇您的賽道
<a name="student-league-create-model-step-three"></a>

選擇您的模擬軌跡。賽道做為環境，並提供資料給您的汽車。如果您選擇非常複雜的賽道，您的車輛需要較長的總訓練時間，而且您使用的獎勵函數更複雜。

**選擇您的賽道 （環境）**

1. 在**選擇賽道**頁面上，選擇要做為您車輛訓練環境的賽道。

1. 選擇**下一步**。

## 步驟 4：選擇演算法
<a name="student-league-create-model-step-four"></a>

 AWS DeepRacer 學生有兩個訓練演算法可供選擇。不同的演算法會以不同的方式最大化獎勵。若要充分利用您的 AWS DeepRacer 學生體驗，請試用這兩種演算法。如需演算法的詳細資訊，請參閱 [AWS DeepRacer 訓練演算法](https://docs.aws.amazon.com/deepracer/latest/developerguide/deepracer-how-it-works-reinforcement-learning-algorithm.html)。

**選擇訓練演算法**

1. 在**選擇演算法類型**頁面上，選取演算法類型。有兩種演算法類型可用：
   +  **近端政策最佳化 (PPO)**。此穩定但資料忙碌的演算法會在訓練反覆運算之間持續執行。
   +  **Soft Actor Critic (SAC)**。這種不穩定但資料效率高的演算法可能會在訓練反覆運算之間不一致地執行。

1. 選擇**下一步**。

## 步驟 5：自訂獎勵函數
<a name="student-league-create-model-step-five"></a>

獎勵函數是強化學習的核心。使用它來激勵您的汽車 （代理程式） 在探索賽道 （環境） 時採取特定動作。就像您鼓勵和不鼓勵寵物中的某些行為一樣，您可以使用此工具來鼓勵您的汽車盡快完成單圈，並阻止它離開賽道和鋸齒狀。

訓練第一個模型時，您可能想要使用預設範例獎勵函數。當您準備好實驗和最佳化模型時，您可以透過在程式碼編輯器中編輯程式碼來自訂獎勵函數。如需自訂獎勵函數的詳細資訊，請參閱 [自訂獎勵函數](reward-function.md)。

**自訂獎勵函數**

1. 在**自訂獎勵函數**頁面上，選擇範例獎勵函數。您可以自訂 3 個範例獎勵函數：
   + **遵循中心線**。當汽車自動行駛到盡可能接近賽道的中心線時，獎勵汽車。
   + **保持在邊界內**。當汽車自動駕駛時獎勵汽車，四個車輪都停留在賽道邊界內。
   + **防止 zig-zag**。獎勵您的汽車保持在中心線附近。如果車輛使用高轉向角度或偏離賽道，則會懲罰您的車輛。
**注意**  
如果您不想自訂獎勵函數，請選擇**下一步**。

1. （選用） 修改獎勵函數程式碼。
   + 選取範例獎勵函數，然後選擇**逐步解說此程式碼**。
   + 對於程式碼的每個區段，您可以選取 **\$1** 以顯示具有說明文字的快顯文字方塊，以檢視更多資訊。在每個快顯視窗中選擇**下一步**，進行程式碼演練。若要退出快顯文字方塊，請選擇角落的 **X**。若要結束演練，請選擇**完成**。
**注意**  
您可以選擇不編輯範例獎勵函數程式碼，方法是選取 **Go with default code**。
   + 或者，選擇範例獎勵函數並選擇編輯範例程式碼，以編輯範例獎勵函數**程式碼**。編輯程式碼，然後選取**驗證**以檢查您的程式碼。如果您的程式碼無法驗證，或您想要將程式碼重設為其原始狀態，請選擇**重設**。

1. 選擇**下一步**。

## 步驟 6：選擇持續時間，並將模型提交至排行榜
<a name="student-league-create-model-step-six"></a>

模型訓練的持續時間會影響其效能。在訓練的早期階段進行實驗時，您應該從此參數的小數值開始，然後逐步訓練較長的時間。

在此訓練模型的步驟中，您的訓練模型會提交至排行榜。您可以透過取消選取核取方塊來選擇退出。

**選擇持續時間並將模型提交至排行榜**

1. 在**選擇持續時間**頁面上，選擇**模型訓練持續時間中選擇一個**時間。

1. 在**模型描述**欄位中，輸入模型的實用描述，協助您記住所做的選擇。
**提示**  
最佳實務是新增模型的相關資訊，例如獎勵函數和演算法的目前選擇和修改，以及您對模型將如何執行的假設。

1. 選取核取方塊，讓您的模型在訓練完成後自動提交至 AWS DeepRacer 學生排行榜。或者，您可以透過取消選取核取方塊來選擇不輸入模型。
**提示**  
建議您將模型提交至排行榜。提交模型可協助您了解模型與其他模型的比較情況，並為您提供意見回饋，以便改善模型。

1. 選擇**訓練您的模型**。

1. 在**初始化模型訓練**快顯視窗中，選擇**確定**。

1. 在**訓練組態**頁面上，您可以檢閱模型的訓練狀態和組態。當訓練**狀態**為**進行中**時，您也可以在選取的賽道上檢視模型訓練的影片。觀看影片可協助您開發可用來改善模型的寶貴洞見。

## 步驟 7：在排行榜上檢視模型的效能
<a name="student-league-create-model-step-seven"></a>

訓練模型並將其提交至排行榜後，您可以檢視其效能。

**檢視模型的效能**

1. 在左側導覽窗格中，導覽至 並展開**競爭**。選擇季節。在**排行榜**頁面上，您的模型和排名會出現在區段中。此頁面也包含**排行榜**區段，其中包含提交的模型清單、競賽詳細資訊和**競賽詳細資訊**區段。

1. 在顯示排行榜的頁面中，在您的設定檔的 區段中，選取**觀看影片**以檢視模型效能的影片。

## 步驟 8：使用**複製**來改善模型
<a name="student-league-create-model-step-eight"></a>

完成訓練並選擇性地將模型提交至排行榜後，您可以複製模型以改善模型。複製模型可節省您的步驟，並使用先前訓練過的模型作為新模型的起點，讓訓練更有效率。

**複製和提升模型**

1. In AWS DeepRacer 學生，在左側導覽窗格中，導覽至**您的模型**。

1. 在**模型**頁面上，選取模型，然後選擇**複製**。

1. 在**為您的模型命名**欄位中，為複製的模型提供新名稱，然後選擇**下一步**。

1. 在**自訂獎勵函數**頁面上，自訂獎勵函數，然後選擇**下一步**。如需自訂獎勵函數的詳細資訊，請參閱 [步驟 5：自訂獎勵函數](#student-league-create-model-step-five)。

1. 在**選擇持續時間**頁面，在**選擇模型訓練持續時間**欄位中輸入時間，在**模型描述**欄位中輸入描述，然後選取核取方塊，將複製的模型提交至排行榜。

1. 選擇**訓練您的模型**。您的訓練已初始化。隨即出現**訓練組態**頁面，其中包含複製模型的相關資訊。當訓練**狀態**為**進行中**時，您也可以在選取的賽道上檢視模型訓練的影片。

1. 繼續複製和修改預先訓練的模型，以在排行榜上達到最佳效能。

## 步驟 9：（選用） 下載模型
<a name="student-league-create-model-step-nine"></a>

訓練模型並選擇性地提交至排行榜後，您可能想要下載模型以供日後在 a AWS DeepRacer 實體裝置上使用。您的模型會儲存為 `.tar.gz` 檔案。

**下載模型**

1. In AWS DeepRacer 學生，在左側導覽窗格中，導覽至**您的模型**。

1. 在**模型**頁面上，選取模型，然後選擇**下載**。

1. 在瀏覽器中追蹤模型下載的進度。下載模型時，您可以將其儲存至本機硬碟或其他偏好的儲存裝置。

   若要進一步了解如何使用 AWS DeepRacer 裝置，請參閱 [AWS DeepRacer 指南中的操作 YourDeepRacer 車輛](https://docs.aws.amazon.com/deepracer/latest/developerguide/operate-deepracer-vehicle.html)。 *AWS DeepRacer *