本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon Bedrock 中使用強化微調來自訂模型
<a name="reinforcement-fine-tuning"></a>

強化微調是 Amazon Bedrock 中的模型自訂技術，透過透過稱為獎勵的回饋訊號，教導構成「良好」回應的模型來改善基礎模型效能。與依賴標記資料集的傳統微調方法不同，強化微調使用意見回饋驅動的方法，反覆最佳化模型以最大化這些獎勵。

## 強化微調應用程式和案例
<a name="reinforcement-fine-tuning-when"></a>

當您可以定義明確且可衡量的成功條件來評估回應品質時，請使用強化微調。增強式微調在可以客觀測量輸出品質的網域中表現優異，特別是當存在多個有效回應或難以預先定義最佳回應時。它非常適合：
+ 數學問題解決和程式碼產生 （使用規則型評分器進行目標評估）
+ 科學推理和結構化資料分析
+ 主觀任務，例如以下指示、內容管制和創意撰寫 （使用 AI 型判斷）
+ 需要step-by-step推理或多迴轉問題解決的任務
+ 具有多個有效解決方案的案例，其中有些解決方案明顯優於其他解決方案
+ 應用程式平衡多個目標 （準確性、效率、風格）
+ 需要反覆改進、個人化或遵守複雜業務規則的應用程式
+ 可透過執行結果或效能指標以程式設計方式驗證成功的案例
+ 收集高品質標籤範例昂貴或不切實際的案例

## 強化微調的優點
<a name="reinforcement-fine-tuning-benefits"></a>
+ **改善模型效能** – 與基礎模型相比，強化微調可將模型準確度平均提高 66%。這可透過微調較小、更快速且更有效率的模型變體，來最佳化價格和效能。
+ **易於使用** – Amazon Bedrock 可自動化強化微調的複雜性，讓建置 AI 應用程式的開發人員能夠存取。您可以使用上傳的資料集或現有的 API 調用日誌來微調模型。您可以使用 Lambda 或 model-as-a-judge 分級器，透過內建範本來協助快速設定，來定義使用自訂程式碼對模型輸出進行分級的獎勵函數。
+ **安全與合規** – 在自訂程序期間，您的專屬資料永遠不會離開 AWS安全、受管的環境。

## 支援強化微調的模型
<a name="rft-supported-models"></a>

下表顯示您可以使用強化微調來自訂的基礎模型：


**支援強化微調的模型**  

| 供應商 | 模型 | 模型 ID | 區域名稱 | 區域 | 
| --- | --- | --- | --- | --- | 
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1：0：256k | 美國東部 (維吉尼亞北部) | us-east-1 | 
| OpenAI | gpt-oss-20B | openai.gpt-oss-20b | 美國西部 (奧勒岡) | us-west-2 | 
| Qwen | Qwen3 32B | qwen.qwen3-32b | 美國西部 (奧勒岡) | us-west-2 | 

## 強化微調的運作方式
<a name="rft-how-it-works"></a>

Amazon Bedrock 完全自動化強化微調工作流程。模型會從訓練資料集接收提示，並為每個提示產生數個回應。然後，獎勵函數會對這些回應進行評分。Amazon Bedrock 使用具有分數的提示回應對，透過使用群組相對政策最佳化 (GRPO) 的政策型學習來訓練模型。訓練迴圈會持續進行，直到訓練資料結束，或您在選擇的檢查點停止任務，針對對您重要的指標產生最佳化的模型。

## 強化微調最佳實務
<a name="rft-best-practices"></a>
+ **從小**開始 – 從 100-200 個範例開始，驗證獎勵函數正確性，並根據結果逐步擴展
+ **預先微調評估 – 在**強化微調之前測試基準模型效能。如果獎勵持續為 0%，請先使用監督式微調來建立基本功能。如果獎勵大於 95%，則可能不需要加強微調
+ **監控訓練** – 追蹤平均獎勵分數和分佈。注意過度擬合 （訓練獎勵增加，而驗證獎勵減少）。尋找相關的模式，例如獎勵穩定低於 0.15、隨時間增加獎勵差異，以及驗證效能下降
+ **最佳化獎勵函數** – 在幾秒鐘 （而非幾分鐘） 內執行、將外部 API 呼叫降至最低、使用高效演算法、實作適當的錯誤處理，並利用 Lambda 的平行擴展
+ **反覆運算策略** – 如果獎勵未改善，請調整獎勵函數設計、增加資料集多樣性、新增更多具代表性的範例，並確認獎勵訊號清晰一致

**Topics**
+ [強化微調應用程式和案例](#reinforcement-fine-tuning-when)
+ [強化微調的優點](#reinforcement-fine-tuning-benefits)
+ [支援強化微調的模型](#rft-supported-models)
+ [強化微調的運作方式](#rft-how-it-works)
+ [強化微調最佳實務](#rft-best-practices)
+ [使用強化微調來微調 Amazon Nova 模型](rft-nova-models.md)
+ [使用 OpenAI相容的 APIs 微調開放權重模型](fine-tuning-openai-apis.md)
+ [評估您的 RFT 模型](rft-evaluate-model.md)