翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
強化ファインチューニングのためのトレーニングデータと報酬関数を準備する
強化ファインチューニングジョブを作成するには、レスポンスの品質を評価するトレーニングデータと報酬関数が必要です。入出力ペアを必要とする従来のファインチューニングとは異なり、RFT はプロンプトと報酬シグナルを使用してモデル学習をガイドします。
既存の Amazon Bedrock API 呼び出しログをトレーニングデータとして使用したり、新しいデータセットをアップロードしたりできます。報酬関数は、良い応答を行う内容を定義し、ルールベースの検証 (RLVR) または AI ベースの判断 (RLAIF) を使用できます。
重要
Amazon Bedrock に最大 20K 個のプロンプトを提供して、モデルの微調整を強化できます。