評估您的 RFT 模型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

評估您的 RFT 模型

強化微調任務成功完成之後,您可以使用多個評估方法來評估自訂模型的效能。Amazon Bedrock 提供內建評估工具,協助您比較 RFT 模型與基礎模型,並驗證改善項目。

評估方法

Amazon Bedrock 提供多種方法來評估您的 RFT 模型效能。

驗證指標

如果您上傳驗證資料集,您會在訓練指標中看到兩個額外的圖形。

  • 驗證獎勵 - 顯示模型在訓練範例以外的一般程度。分數低於訓練獎勵是正常且預期的。

  • 驗證片段長度 - 未看到驗證資料的平均回應長度。顯示相較於訓練範例,模型回應新輸入的效率。

在遊樂場測試

使用遊樂場測試功能進行快速、臨機操作的評估。若要使用遊樂場測試功能,需要設定推論。如需詳細資訊,請參閱設定要評估的推論

此互動式工具可讓您:

  • 使用 RFT 模型直接測試提示

  • 比較自訂模型和基礎模型之間的side-by-side

  • 即時評估回應品質改善

  • 使用不同的提示進行實驗,以評估模型功能

Bedrock 模型評估

使用 Amazon Bedrock 的模型評估,使用您自己的資料集評估 RFT 模型。這可提供具有標準化指標和基準的完整效能分析。以下是 Amazon Bedrock 模型評估優點的一些範例。

  • 使用自訂測試資料集的系統性評估

  • 量化效能比較

  • 一致評估的標準化指標

  • 與現有 Amazon Bedrock 評估工作流程整合

設定要評估的推論

在評估 RFT 模型之前,請使用下列其中一個選項設定推論:

隨需推論

建立自訂模型隨需部署,以進行彈性pay-per-use的評估。此選項包含以字符為基礎的定價,根據推論期間處理的字符數量收費。

評估最佳實務

  • 有系統地比較 - 一律使用相同的測試提示和評估條件,對照基礎模型評估 RFT 模型。

  • 使用多樣化的測試案例 - 包含代表實際使用案例的各種提示類型和案例。

  • 驗證獎勵一致性 - 確保您的模型改進符合訓練期間使用的獎勵函數。

  • 測試邊緣案例 - 評估具有挑戰性或不尋常輸入上的模型行為,以評估穩健性。

  • 監控回應一致性 - 檢查您的模型是否在具有類似提示的多個執行中提供一致的品質。