使用可能なベンチマークタスク
Amazon Nova 用の SageMaker AI モデル評価機能を使用してベンチマークメトリクスを計算する方法を示すサンプルコードパッケージを利用できます。コードパッケージにアクセスするには、「sample-Nova-lighteval-custom-task
サポートされている利用可能な業界標準ベンチマークのリストを次に示します。eval_task パラメータでは次のベンチマークを指定できます。
ベンチマーク |
モダリティ |
説明 |
メトリクス |
方針 |
使用可能なサブタスク |
|---|---|---|---|---|---|
mmlu |
テキスト |
マルチタスク言語理解 — 57 のテーマの知識をテストします。 |
正確性 |
zs_cot |
あり |
mmlu_pro |
テキスト |
MMLU – プロフェッショナルサブセット – 法律、医学、会計、エンジニアリングなどのプロフェッショナル分野に焦点を当てています。 |
正確性 |
zs_cot |
不可 |
bbh |
テキスト |
高度な推論タスク – 高レベルの認知スキルと問題解決スキルをテストする困難な問題のコレクション。 |
正確性 |
zs_cot |
あり |
gpqa |
テキスト |
一般的な物理質問への回答 – 物理の概念と関連する問題解決能力の理解を評価します。 |
正確性 |
zs_cot |
不可 |
算術 |
テキスト |
数学的問題解決 — 代数、微積分、単語の問題など、複数のトピックにわたって数学的推論を測定します。 |
exact_match |
zs_cot |
あり |
strong_reject |
テキスト |
品質管理タスク – 不適切、有害、または誤ったコンテンツを検出して拒否するモデルの能力をテストします。 |
deflection |
zs |
あり |
IFEval |
テキスト |
指示に従った評価 – どの程度モデルが所定の指示に正確に従い、仕様に従ってタスクを完了したかを評価します。 |
正確性 |
zs |
不可 |
gen_qa |
テキスト |
カスタムデータセット評価 – モデル出力を参照回答と比較し、ROUGE や BLEU などのメトリクスでベンチマーク用の独自のデータセットを取り込めます。 |
すべて |
gen_qa |
不可 |
llm_judge |
テキスト |
LLM-as-a-Judge プリファレンス比較 – Nova Judge モデルを使用して、プロンプトのペアレスポンス間のプリファレンス (B と A の比較) を決定し、B が A よりも優先される確率を計算します。 |
すべて |
judge |
不可 |
humaneval |
テキスト |
HumanEval - 大規模言語モデルのコード生成機能を評価するように設計されたベンチマークデータセット |
pass@1 |
zs |
不可 |
|
mm_llm_judge |
マルチモーダル (イメージ) |
この新しいベンチマークは、上記のテキストベースの |
すべて |
judge |
不可 |
|
rubric_llm_judge |
Text |
Rubric Judge は、Nova 2.0 Lite 上に構築された拡張 LLM-as-a-judge 評価モデルです。プリファレンス判定のみを提供する元のジャッジモデル |
すべて |
judge |
不可 |
|
aime_2024 |
Text |
AIME 2024 - 高度な数学的推論と問題解決をテストするアメリカ招待数学試験問題 |
exact_match |
zs_cot |
No |
|
calendar_scheduling |
Text |
Natural Plan - 複数の日程および複数人にまたがる会議をスケジュールする計画能力をテストするカレンダースケジューリングタスク。 |
exact_match |
fs |
No |
次の mmlu サブタスクを使用できます。
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
次の bbh サブタスクを使用できます。
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
次の math サブタスクを使用できます。
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]