翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
RFT モデルを評価する
強化ファインチューニングジョブが正常に完了したら、複数の評価方法を使用してカスタムモデルのパフォーマンスを評価できます。Amazon Bedrock には、RFT モデルをベースモデルと比較し、改善点を検証するのに役立つ評価ツールが組み込まれています。
評価方法
Amazon Bedrock には、RFT モデルのパフォーマンスを評価する方法がいくつか用意されています。
検証メトリクス
検証データセットをアップロードすると、トレーニングメトリクスに 2 つの追加グラフが表示されます。
-
検証報酬 - トレーニング例を超えてモデルがどの程度一般化されているかを示します。トレーニング報酬よりも低いスコアは正常で予想されます。
-
検証エピソードの長さ - 未表示の検証データの平均応答時間。トレーニング例と比較して、モデルが新しい入力に応答する効率を示します。
プレイグラウンドでテストする
プレイグラウンドでのテスト機能を使用して、迅速でアドホックな評価を行います。プレイグラウンドでテスト機能を使用するには、推論を設定する必要があります。詳細については、「評価用の推論の設定」を参照してください。
このインタラクティブなツールを使用すると、次のことが可能になります。
-
RFT モデルを使用してプロンプトを直接テストする
-
カスタムモデルとベースモデル間でレスポンスをside-by-side比較する
-
レスポンス品質の改善をリアルタイムで評価する
-
さまざまなプロンプトを試してモデル機能を評価する
Bedrock モデル評価
Amazon Bedrock のモデル評価を使用して、独自のデータセットを使用して RFT モデルを評価します。これにより、標準化されたメトリクスとベンチマークによる包括的なパフォーマンス分析が提供されます。Amazon Bedrock モデル評価の利点の例をいくつか示します。
-
カスタムテストデータセットを使用した体系的な評価
-
定量的パフォーマンス比較
-
一貫した評価のための標準化されたメトリクス
-
既存の Amazon Bedrock 評価ワークフローとの統合
評価用の推論の設定
RFT モデルを評価する前に、次のいずれかのオプションを使用して推論を設定します。
オンデマンド推論
柔軟なpay-per-use評価のためのカスタムモデルのオンデマンドデプロイを作成します。このオプションには、推論中に処理されたトークンの数に基づいて課金されるトークンベースの料金が含まれます。
評価のベストプラクティス
-
体系的に比較する - 常に同じテストプロンプトと評価基準を使用して、基本モデルに対して RFT モデルを評価します。
-
多様なテストケースを使用する - 実際のユースケースを表すさまざまなプロンプトタイプとシナリオを含めます。
-
報酬の調整を検証する - モデルの改善がトレーニング中に使用される報酬関数と一致していることを確認します。
-
エッジケースのテスト - 困難または異常な入力に対するモデルの動作を評価して、堅牢性を評価します。
-
レスポンスの一貫性をモニタリングする - モデルが同様のプロンプトで複数の実行にわたって一貫した品質を提供していることを確認します。