推論モデル評価 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

推論モデル評価

概要:

推論モデルのサポートにより、最終的なレスポンスを生成する前に明示的な内部推論を実行する推論対応 Nova モデルによる評価が可能になります。この機能は、 reasoning_effortパラメータを介した API レベルの制御を使用して、推論機能を動的に有効または無効にし、複雑な分析タスクの応答品質を向上させる可能性があります。

サポートされているモデル

  • amazon.nova-2-lite-v1:0:256k

レシピ設定

レシピの inferenceセクションに reasoning_effortパラメータを追加して、推論を有効にします。

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

reasoning_effort パラメータの使用

reasoning_effort パラメータは、推論対応モデルの推論動作を制御します。

前提条件

  • モデルの互換性 – 推論対応モデル (現在 amazon.nova-2-lite-v1:0:256k) model_typeを指定するreasoning_effort場合にのみ設定されます。

  • エラー処理 — サポートされていないモデルreasoning_effortで を使用すると、 で失敗します。 ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

利用可能なオプション

オプション 行動 トークンの制限 ユースケース
null (デフォルト) 推論モードを無効にします 該当なし オーバーヘッドを推論しない標準評価
low 制約のある推論を有効にします 内部推論用の 4,000 トークン 簡潔な推論を必要とするシナリオ。速度とコストを最適化
high 制約なしで推論を有効にする 内部推論にトークン制限なし 広範な分析とstep-by-stepの推論を必要とする複雑な問題
トレーニング方法 利用可能なオプション の設定方法
SFT (教師ありファインチューニング) 高またはオフのみ reasoning_enabled を使用する: true (高) または reasoning_enabled: false (オフ)
RFT (強化ファインチューニング) Low、High、または Off reasoning_effort: low または reasoning_effort: high を使用します。フィールドを省略して無効にします。
評価 Low、High、または Off reasoning_effort: low または reasoning_effort: high を使用します。null を使用して無効にします。

推論を有効にするタイミング

の推論モード (low または high) を使用する

  • 複雑な問題解決タスク (数学、ロジックパズル、コーディング)

  • 中間推論を必要とする複数ステップの分析質問

  • 詳細な説明やstep-by-step思考によって精度が向上するタスク

  • 応答品質が速度よりも優先されるシナリオ

に理由のないモード (null または パラメータを省略) を使用する

  • 単純な Q&A クエリまたは事実クエリ

  • クリエイティブな書き込みタスク

  • 応答時間の短縮が重要な場合

  • 推論オーバーヘッドを除外するパフォーマンスベンチマーク

  • 推論がタスクのパフォーマンスを向上させない場合のコスト最適化

トラブルシューティング

エラー:「推論モードは有効ですが、モデルは推論をサポートしていません

原因: reasoning_effortパラメータは null 以外の値に設定されていますが、指定された model_typeは推論をサポートしていません。

解決策:

  • モデルタイプが であることを確認します。 amazon.nova-2-lite-v1:0:256k

  • 別のモデルを使用する場合は、推論対応モデルに切り替えるか、レシピから reasoning_effortパラメータを削除します。