RFT モデルを評価する

強化ファインチューニングジョブが正常に完了したら、複数の評価方法を使用してカスタムモデルのパフォーマンスを評価できます。Amazon Bedrock には、RFT モデルをベースモデルと比較し、改善点を検証するのに役立つ評価ツールが組み込まれています。

評価方法

Amazon Bedrock には、RFT モデルのパフォーマンスを評価する方法がいくつか用意されています。

検証データセットをアップロードすると、トレーニングメトリクスに 2 つの追加グラフが表示されます。

プレイグラウンドでのテスト機能を使用して、迅速でアドホックな評価を行います。プレイグラウンドでテスト機能を使用するには、推論を設定する必要があります。詳細については、「評価用の推論の設定」を参照してください。

このインタラクティブなツールを使用すると、次のことが可能になります。

Amazon Bedrock のモデル評価を使用して、独自のデータセットを使用して RFT モデルを評価します。これにより、標準化されたメトリクスとベンチマークによる包括的なパフォーマンス分析が提供されます。Amazon Bedrock モデル評価の利点の例をいくつか示します。

RFT モデルを評価する前に、次のいずれかのオプションを使用して推論を設定します。

柔軟なpay-per-use評価のためのカスタムモデルのオンデマンドデプロイを作成します。このオプションには、推論中に処理されたトークンの数に基づいて課金されるトークンベースの料金が含まれます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ファインチューニングジョブを作成する

蒸留