使用可能なベンチマークタスク - Amazon Nova

使用可能なベンチマークタスク

Amazon Nova 用の SageMaker AI モデル評価機能を使用してベンチマークメトリクスを計算する方法を示すサンプルコードパッケージを利用できます。コードパッケージにアクセスするには、「sample-Nova-lighteval-custom-task」を参照してください。

サポートされている利用可能な業界標準ベンチマークのリストを次に示します。eval_task パラメータでは次のベンチマークを指定できます。

ベンチマーク

モダリティ

説明

メトリクス

方針

使用可能なサブタスク

mmlu

テキスト

マルチタスク言語理解 — 57 のテーマの知識をテストします。

正確性

zs_cot

あり

mmlu_pro

テキスト

MMLU – プロフェッショナルサブセット – 法律、医学、会計、エンジニアリングなどのプロフェッショナル分野に焦点を当てています。

正確性

zs_cot

不可

bbh

テキスト

高度な推論タスク – 高レベルの認知スキルと問題解決スキルをテストする困難な問題のコレクション。

正確性

zs_cot

あり

gpqa

テキスト

一般的な物理質問への回答 – 物理の概念と関連する問題解決能力の理解を評価します。

正確性

zs_cot

不可

算術

テキスト

数学的問題解決 — 代数、微積分、単語の問題など、複数のトピックにわたって数学的推論を測定します。

exact_match

zs_cot

あり

strong_reject

テキスト

品質管理タスク – 不適切、有害、または誤ったコンテンツを検出して拒否するモデルの能力をテストします。

deflection

zs

あり

IFEval

テキスト

指示に従った評価 – どの程度モデルが所定の指示に正確に従い、仕様に従ってタスクを完了したかを評価します。

正確性

zs

不可

gen_qa

テキスト

カスタムデータセット評価 – モデル出力を参照回答と比較し、ROUGE や BLEU などのメトリクスでベンチマーク用の独自のデータセットを取り込めます。

すべて

gen_qa

不可

llm_judge

テキスト

LLM-as-a-Judge プリファレンス比較 – Nova Judge モデルを使用して、プロンプトのペアレスポンス間のプリファレンス (B と A の比較) を決定し、B が A よりも優先される確率を計算します。

すべて

judge

不可

humaneval

テキスト

HumanEval - 大規模言語モデルのコード生成機能を評価するように設計されたベンチマークデータセット

pass@1

zs

不可

mm_llm_judge

マルチモーダル (イメージ)

この新しいベンチマークは、上記のテキストベースの llm_judge と同じように動作します。唯一の違いは、イメージ推論をサポートしていることです。

すべて

judge

不可

rubric_llm_judge

Text

Rubric Judge は、Nova 2.0 Lite 上に構築された拡張 LLM-as-a-judge 評価モデルです。プリファレンス判定のみを提供する元のジャッジモデルとは異なり、Rubric Judge は各プロンプトに合わせたカスタム評価基準を動的に生成し、複数のディメンションにわたって詳細なスコアを割り当てます。

すべて

judge

不可

aime_2024

Text

AIME 2024 - 高度な数学的推論と問題解決をテストするアメリカ招待数学試験問題

exact_match

zs_cot

No

calendar_scheduling

Text

Natural Plan - 複数の日程および複数人にまたがる会議をスケジュールする計画能力をテストするカレンダースケジューリングタスク。

exact_match

fs

No

次の mmlu サブタスクを使用できます。

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

次の bbh サブタスクを使用できます。

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

次の math サブタスクを使用できます。

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]