Tugas benchmark yang tersedia - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tugas benchmark yang tersedia

Paket kode sampel tersedia yang menunjukkan cara menghitung metrik tolok ukur menggunakan fitur evaluasi model SageMaker AI untuk Amazon Nova. Untuk mengakses paket kode, lihat Sampel-N ova-lighteval-custom-task.

Berikut adalah daftar tolok ukur standar industri yang didukung dan tersedia. Anda dapat menentukan tolok ukur berikut dalam eval_task parameter:

Tolok Ukur

Modalitas

Deskripsi

Metrik-metrik

Strategi

Subtugas Tersedia

mmlu

Teks

Pemahaman Bahasa Multi-tugas - Menguji pengetahuan di 57 mata pelajaran.

ketepatan

zs_cot

Ya

mmlu_pro

Teks

MMLU - Subset Profesional - Berfokus pada domain profesional seperti hukum, kedokteran, akuntansi, dan teknik.

ketepatan

zs_cot

Tidak

bbh

Teks

Tugas Penalaran Lanjutan - Kumpulan masalah menantang yang menguji keterampilan kognitif dan pemecahan masalah tingkat tinggi.

ketepatan

zs_cot

Ya

gpqa

Teks

Penjawab Pertanyaan Fisika Umum — Menilai pemahaman konsep fisika dan kemampuan pemecahan masalah terkait.

ketepatan

zs_cot

Tidak

matematika

Teks

Pemecahan Masalah Matematika — Mengukur penalaran matematis di seluruh topik termasuk aljabar, kalkulus, dan masalah kata.

exact_match

zs_cot

Ya

strong_tolak

Teks

Quality-Control Task — Menguji kemampuan model untuk mendeteksi dan menolak konten yang tidak pantas, berbahaya, atau salah.

defleksi

zs

Ya

IFEval

Teks

Instruksi-Mengikuti Evaluasi - Mengukur seberapa akurat model mengikuti instruksi yang diberikan dan menyelesaikan tugas untuk spesifikasi.

ketepatan

zs

Tidak

gen_qa

Teks

Evaluasi Dataset Kustom - Memungkinkan Anda membawa dataset Anda sendiri untuk benchmarking, membandingkan output model untuk referensi jawaban dengan metrik seperti ROUGE dan BLEU.

all

gen_qa

Tidak

llm_hakim

Teks

LLM-as-a-Judge Perbandingan Preferensi — Menggunakan model Nova Judge untuk menentukan preferensi antara respons berpasangan (B dibandingkan dengan A) untuk petunjuk Anda, menghitung probabilitas B lebih disukai daripada A.

all

hakim

Tidak

kemanusiaan

Teks

HumanEval - Dataset benchmark yang dirancang untuk mengevaluasi kemampuan pembuatan kode model bahasa besar

lulus @1

zs

Tidak

mm_llm_hakim

Multi-modal (gambar)

Tolok ukur baru ini berperilaku sama dengan berbasis teks llm_judge di atas. Satu-satunya perbedaan adalah mendukung inferensi gambar.

all

hakim

Tidak

rubric_llm_judge

Teks

Rubric Judge adalah model LLM-as-a-judge evaluasi yang disempurnakan yang dibangun di atas Nova 2.0 Lite. Berbeda dengan model hakim asli yang hanya memberikan putusan preferensi, Rubric Judge secara dinamis menghasilkan kriteria evaluasi khusus yang disesuaikan dengan setiap prompt dan memberikan skor granular di berbagai dimensi.

all

hakim

Tidak

aime_2024

Teks

AIME 2024 - Ujian Matematika Undangan Amerika menguji penalaran matematika tingkat lanjut dan pemecahan masalah

exact_match

zs_cot

Tidak

calendar_scheduling

Teks

Rencana Alami - Kalender Penjadwalan tugas menguji kemampuan perencanaan untuk menjadwalkan rapat di beberapa hari dan orang

exact_match

fs

Tidak

mmluSubtugas berikut tersedia:

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

bbhSubtugas berikut tersedia:

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

mathSubtugas berikut tersedia:

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]