準備訓練資料和獎勵函數以進行強化微調 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備訓練資料和獎勵函數以進行強化微調

若要建立強化微調任務,您需要訓練資料並獎勵評估回應品質的函數。與需要輸入輸出對的傳統微調不同,RFT 使用提示和獎勵訊號來引導模型學習。

您可以使用現有的 Amazon Bedrock API 調用日誌作為訓練資料或上傳新資料集。獎勵函數會定義做出良好回應的原因,並且可以使用規則型驗證 (RLVR) 或 AI 型判斷 (RLAIF)。

重要

您可以向 Amazon Bedrock 提供最多 20K個提示,以微調模型。