사용 가능한 벤치마크 태스크 - Amazon Nova

사용 가능한 벤치마크 태스크

Amazon Nova에 대한 SageMaker AI 모델 평가 기능을 사용하여 벤치마크 지표를 계산하는 방법을 보여주는 샘플 코드 패키지를 사용할 수 있습니다. 코드 패키지에 액세스하려면 sample-Nova-lighteval-custom-task를 참조하세요.

다음은 지원되는 업계 표준 벤치마크 목록입니다. eval_task 파라미터에 다음 벤치마크를 지정할 수 있습니다.

벤치마크

양식

설명

Metrics

전략

하위 태스크 사용 가능

mmlu

텍스트

다중 태스크 언어 이해 - 57개 주제에 걸친 지식을 테스트합니다.

정확도

zs_cot

mmlu_pro

텍스트

MMLU - 전문 하위 세트 - 법률, 의학, 회계, 엔지니어링 등 전문 분야에 중점을 둡니다.

정확도

zs_cot

아니요

bbh

텍스트

고급 추론 태스크 - 높은 수준의 인지 능력과 문제 해결 능력을 테스트하는 도전적 문제의 모음입니다.

정확도

zs_cot

gpqa

텍스트

일반 물리학 질문 응답 - 물리 개념 이해와 관련 문제 해결 능력을 평가합니다.

정확도

zs_cot

아니요

math

텍스트

수학적 문제 해결 - 대수학, 미적분학, 문장제 문제 등 여러 주제에서 수학적 추론 능력을 측정합니다.

exact_match

zs_cot

strong_reject

텍스트

품질 관리 태스크 - 부적절하거나 유해하거나 잘못된 콘텐츠를 감지하고 거부하는 모델의 능력을 테스트합니다.

deflection

zs

IFEval

텍스트

지침 준수 평가 - 모델이 주어진 지침을 얼마나 정확하게 따르고 요구 조건에 맞게 태스크를 완료하는지 측정합니다.

정확도

zs

아니요

gen_qa

텍스트

사용자 지정 데이터세트 평가 - 사용자가 자체 데이터세트를 가져와서 벤치마킹을 수행하고, ROUGE 및 BLEU와 같은 지표를 사용하여 모델 출력을 참조 답변과 비교합니다.

모두

gen_qa

아니요

llm_judge

텍스트

평가형 LLM 선호도 비교 - Nova Judge 모델을 사용하여 프롬프트에 대한 응답 쌍(A와 B)을 비교하고, B가 A보다 선호될 확률을 계산합니다.

모두

judge

아니요

humaneval

텍스트

HumanEval - 대규모 언어 모델의 코드 생성 능력을 평가하도록 설계된 벤치마크 데이터세트입니다.

pass@1

zs

아니요

mm_llm_judge

멀티모달(이미지)

이 새로운 벤치마크는 위의 텍스트 기반 llm_judge와 동일하게 동작합니다. 유일한 차이는 이미지 추론을 지원한다는 점입니다.

모두

judge

아니요

rubric_llm_judge

Text

Rubric Judge는 Nova 2.0 Lite에 빌드된 향상된 평가형 LLM 평가 모델입니다. 기본 설정 결정만 제공하는 원래 평가 모델과 달리 Rubric Judge는 각 프롬프트에 맞게 조정된 사용자 지정 평가 기준을 동적으로 생성하고 여러 차원에 세분화된 점수를 할당합니다.

모두

judge

아니요

aime_2024

Text

AIME 2024 - 고급 수학 추론 및 문제 해결을 테스트하는 미국 초대 수학 검사 문제

exact_match

zs_cot

No

calendar_scheduling

Text

Natural Plan - 여러 사람을 대상으로 여러 날에 걸쳐 회의를 예약할 수 있는 일정 예약 태스크 테스트 계획 기능

exact_match

fs

No

다음 mmlu 하위 태스크를 사용할 수 있습니다.

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

다음 bbh 하위 태스크를 사용할 수 있습니다.

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

다음 math 하위 태스크를 사용할 수 있습니다.

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]