Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Tugas benchmark yang tersedia
Paket kode sampel tersedia yang menunjukkan cara menghitung metrik tolok ukur menggunakan fitur evaluasi model SageMaker AI untuk Amazon Nova. Untuk mengakses paket kode, lihat Sampel-N ova-lighteval-custom-task
Berikut adalah daftar tolok ukur standar industri yang didukung dan tersedia. Anda dapat menentukan tolok ukur berikut dalam eval_task parameter:
Tolok Ukur |
Modalitas |
Deskripsi |
Metrik-metrik |
Strategi |
Subtugas Tersedia |
|---|---|---|---|---|---|
mmlu |
Teks |
Pemahaman Bahasa Multi-tugas - Menguji pengetahuan di 57 mata pelajaran. |
ketepatan |
zs_cot |
Ya |
mmlu_pro |
Teks |
MMLU - Subset Profesional - Berfokus pada domain profesional seperti hukum, kedokteran, akuntansi, dan teknik. |
ketepatan |
zs_cot |
Tidak |
bbh |
Teks |
Tugas Penalaran Lanjutan - Kumpulan masalah menantang yang menguji keterampilan kognitif dan pemecahan masalah tingkat tinggi. |
ketepatan |
zs_cot |
Ya |
gpqa |
Teks |
Penjawab Pertanyaan Fisika Umum — Menilai pemahaman konsep fisika dan kemampuan pemecahan masalah terkait. |
ketepatan |
zs_cot |
Tidak |
matematika |
Teks |
Pemecahan Masalah Matematika — Mengukur penalaran matematis di seluruh topik termasuk aljabar, kalkulus, dan masalah kata. |
exact_match |
zs_cot |
Ya |
strong_tolak |
Teks |
Quality-Control Task — Menguji kemampuan model untuk mendeteksi dan menolak konten yang tidak pantas, berbahaya, atau salah. |
defleksi |
zs |
Ya |
IFEval |
Teks |
Instruksi-Mengikuti Evaluasi - Mengukur seberapa akurat model mengikuti instruksi yang diberikan dan menyelesaikan tugas untuk spesifikasi. |
ketepatan |
zs |
Tidak |
gen_qa |
Teks |
Evaluasi Dataset Kustom - Memungkinkan Anda membawa dataset Anda sendiri untuk benchmarking, membandingkan output model untuk referensi jawaban dengan metrik seperti ROUGE dan BLEU. |
all |
gen_qa |
Tidak |
llm_hakim |
Teks |
LLM-as-a-Judge Perbandingan Preferensi — Menggunakan model Nova Judge untuk menentukan preferensi antara respons berpasangan (B dibandingkan dengan A) untuk petunjuk Anda, menghitung probabilitas B lebih disukai daripada A. |
all |
hakim |
Tidak |
kemanusiaan |
Teks |
HumanEval - Dataset benchmark yang dirancang untuk mengevaluasi kemampuan pembuatan kode model bahasa besar |
lulus @1 |
zs |
Tidak |
|
mm_llm_hakim |
Multi-modal (gambar) |
Tolok ukur baru ini berperilaku sama dengan berbasis teks |
all |
hakim |
Tidak |
|
rubric_llm_judge |
Teks |
Rubric Judge adalah model LLM-as-a-judge evaluasi yang disempurnakan yang dibangun di atas Nova 2.0 Lite. Berbeda dengan model hakim asli |
all |
hakim |
Tidak |
|
aime_2024 |
Teks |
AIME 2024 - Ujian Matematika Undangan Amerika menguji penalaran matematika tingkat lanjut dan pemecahan masalah |
exact_match |
zs_cot |
Tidak |
|
calendar_scheduling |
Teks |
Rencana Alami - Kalender Penjadwalan tugas menguji kemampuan perencanaan untuk menjadwalkan rapat di beberapa hari dan orang |
exact_match |
fs |
Tidak |
mmluSubtugas berikut tersedia:
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
bbhSubtugas berikut tersedia:
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
mathSubtugas berikut tersedia:
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]