推論モデル評価

概要:

推論モデルのサポートにより、最終的なレスポンスを生成する前に明示的な内部推論を実行する推論対応 Nova モデルによる評価が可能になります。この機能は、 reasoning_effortパラメータを介した API レベルの制御を使用して、推論機能を動的に有効または無効にし、複雑な分析タスクの応答品質を向上させる可能性があります。

サポートされているモデル

amazon.nova-2-lite-v1:0:256k

レシピ設定

レシピの inferenceセクションに reasoning_effortパラメータを追加して、推論を有効にします。


run:  
  name: reasoning-eval-job-name                          # [MODIFIABLE] Unique identifier for your evaluation job  
  model_type: amazon.nova-2-lite-v1:0:256k               # [FIXED] Must be a reasoning-supported model  
  model_name_or_path: nova-lite-2/prod                   # [FIXED] Path to model checkpoint or identifier  
  replicas: 1                                            # [MODIFIABLE] Number of replicas for SageMaker Training job  
  data_s3_path: ""                                       # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job  
  output_s3_path: ""                                     # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs)  
  
evaluation:  
  task: mmlu                                             # [MODIFIABLE] Evaluation task  
  strategy: zs_cot                                       # [MODIFIABLE] Evaluation strategy  
  metric: accuracy                                       # [MODIFIABLE] Metric calculation method  
  
inference:  
  reasoning_effort: high                                 # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable  
  max_new_tokens: 32768                                  # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high  
  top_k: -1                                              # [MODIFIABLE] Top-k sampling parameter  
  top_p: 1.0                                             # [MODIFIABLE] Nucleus sampling parameter  
  temperature: 0                                         # [MODIFIABLE] Sampling temperature (0 = deterministic)

reasoning_effort パラメータの使用

reasoning_effort パラメータは、推論対応モデルの推論動作を制御します。

前提条件

モデルの互換性 – 推論対応モデル (現在 amazon.nova-2-lite-v1:0:256k) model_typeを指定するreasoning_effort場合にのみ設定されます。
エラー処理 — サポートされていないモデルreasoning_effortでを使用すると、で失敗します。 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

利用可能なオプション

オプション	行動	トークンの制限	ユースケース
null (デフォルト)	推論モードを無効にします	該当なし	オーバーヘッドを推論しない標準評価
low	制約のある推論を有効にします	内部推論用の 4,000 トークン	簡潔な推論を必要とするシナリオ。速度とコストを最適化
high	制約なしで推論を有効にする	内部推論にトークン制限なし	広範な分析とstep-by-stepの推論を必要とする複雑な問題

トレーニング方法	利用可能なオプション	の設定方法
SFT (教師ありファインチューニング)	高またはオフのみ	reasoning_enabled を使用する: true (高) または reasoning_enabled: false (オフ)
RFT (強化ファインチューニング)	Low、High、または Off	reasoning_effort: low または reasoning_effort: high を使用します。フィールドを省略して無効にします。
評価	Low、High、または Off	reasoning_effort: low または reasoning_effort: high を使用します。null を使用して無効にします。

推論を有効にするタイミング

の推論モード (low または high) を使用する

複雑な問題解決タスク (数学、ロジックパズル、コーディング)
中間推論を必要とする複数ステップの分析質問
詳細な説明やstep-by-step思考によって精度が向上するタスク
応答品質が速度よりも優先されるシナリオ

に理由のないモード (null またはパラメータを省略) を使用する

単純な Q&A クエリまたは事実クエリ
クリエイティブな書き込みタスク
応答時間の短縮が重要な場合
推論オーバーヘッドを除外するパフォーマンスベンチマーク
推論がタスクのパフォーマンスを向上させない場合のコスト最適化

トラブルシューティング

エラー：「推論モードは有効ですが、モデルは推論をサポートしていません」

原因: reasoning_effortパラメータは null 以外の値に設定されていますが、指定された model_typeは推論をサポートしていません。

解決策:

モデルタイプがであることを確認します。 amazon.nova-2-lite-v1:0:256k
別のモデルを使用する場合は、推論対応モデルに切り替えるか、レシピから reasoning_effortパラメータを削除します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ルーブリックベースの審査員

RFT 評価