사용 가능한 벤치마크 태스크
Amazon Nova에 대한 SageMaker AI 모델 평가 기능을 사용하여 벤치마크 지표를 계산하는 방법을 보여주는 샘플 코드 패키지를 사용할 수 있습니다. 코드 패키지에 액세스하려면 sample-Nova-lighteval-custom-task
다음은 지원되는 업계 표준 벤치마크 목록입니다. eval_task 파라미터에 다음 벤치마크를 지정할 수 있습니다.
벤치마크 |
양식 |
설명 |
Metrics |
전략 |
하위 태스크 사용 가능 |
|---|---|---|---|---|---|
mmlu |
텍스트 |
다중 태스크 언어 이해 - 57개 주제에 걸친 지식을 테스트합니다. |
정확도 |
zs_cot |
예 |
mmlu_pro |
텍스트 |
MMLU - 전문 하위 세트 - 법률, 의학, 회계, 엔지니어링 등 전문 분야에 중점을 둡니다. |
정확도 |
zs_cot |
아니요 |
bbh |
텍스트 |
고급 추론 태스크 - 높은 수준의 인지 능력과 문제 해결 능력을 테스트하는 도전적 문제의 모음입니다. |
정확도 |
zs_cot |
예 |
gpqa |
텍스트 |
일반 물리학 질문 응답 - 물리 개념 이해와 관련 문제 해결 능력을 평가합니다. |
정확도 |
zs_cot |
아니요 |
math |
텍스트 |
수학적 문제 해결 - 대수학, 미적분학, 문장제 문제 등 여러 주제에서 수학적 추론 능력을 측정합니다. |
exact_match |
zs_cot |
예 |
strong_reject |
텍스트 |
품질 관리 태스크 - 부적절하거나 유해하거나 잘못된 콘텐츠를 감지하고 거부하는 모델의 능력을 테스트합니다. |
deflection |
zs |
예 |
IFEval |
텍스트 |
지침 준수 평가 - 모델이 주어진 지침을 얼마나 정확하게 따르고 요구 조건에 맞게 태스크를 완료하는지 측정합니다. |
정확도 |
zs |
아니요 |
gen_qa |
텍스트 |
사용자 지정 데이터세트 평가 - 사용자가 자체 데이터세트를 가져와서 벤치마킹을 수행하고, ROUGE 및 BLEU와 같은 지표를 사용하여 모델 출력을 참조 답변과 비교합니다. |
모두 |
gen_qa |
아니요 |
llm_judge |
텍스트 |
평가형 LLM 선호도 비교 - Nova Judge 모델을 사용하여 프롬프트에 대한 응답 쌍(A와 B)을 비교하고, B가 A보다 선호될 확률을 계산합니다. |
모두 |
judge |
아니요 |
humaneval |
텍스트 |
HumanEval - 대규모 언어 모델의 코드 생성 능력을 평가하도록 설계된 벤치마크 데이터세트입니다. |
pass@1 |
zs |
아니요 |
|
mm_llm_judge |
멀티모달(이미지) |
이 새로운 벤치마크는 위의 텍스트 기반 |
모두 |
judge |
아니요 |
|
rubric_llm_judge |
Text |
Rubric Judge는 Nova 2.0 Lite에 빌드된 향상된 평가형 LLM 평가 모델입니다. 기본 설정 결정만 제공하는 원래 평가 모델 |
모두 |
judge |
아니요 |
|
aime_2024 |
Text |
AIME 2024 - 고급 수학 추론 및 문제 해결을 테스트하는 미국 초대 수학 검사 문제 |
exact_match |
zs_cot |
No |
|
calendar_scheduling |
Text |
Natural Plan - 여러 사람을 대상으로 여러 날에 걸쳐 회의를 예약할 수 있는 일정 예약 태스크 테스트 계획 기능 |
exact_match |
fs |
No |
다음 mmlu 하위 태스크를 사용할 수 있습니다.
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
다음 bbh 하위 태스크를 사용할 수 있습니다.
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
다음 math 하위 태스크를 사용할 수 있습니다.
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]