Tareas de referencia disponibles
Hay un paquete de códigos de ejemplo que muestra cómo calcular métricas de referencia mediante la característica de evaluación de modelos de SageMaker AI para Amazon Nova. Para acceder a los paquetes de códigos, consulte sample-Nova-lighteval-custom-task
A continuación se muestra una lista de las referencias estándar del sector disponibles y compatibles. Puede especificar las siguientes referencias para el parámetro eval_task:
Referencia |
Modalidad |
Descripción |
Métricas |
Strategy (Estrategia) |
Subtarea disponible |
|---|---|---|---|---|---|
mmlu |
Texto |
Comprensión del lenguaje multitarea: evalúa los conocimientos sobre 57 materias. |
precisión |
zs_cot |
Sí |
mmlu_pro |
Texto |
MMLU (subconjunto profesional): se centra en dominios profesionales como derecho, medicina, contabilidad e ingeniería. |
precisión |
zs_cot |
No |
bbh |
Texto |
Tareas de razonamiento avanzado: conjunto de problemas complejos que ponen a prueba las habilidades cognitivas y de resolución de problemas de nivel superior. |
precisión |
zs_cot |
Sí |
gpqa |
Texto |
Respuesta a preguntas de física general: evalúa la comprensión de conceptos de física y habilidades relacionadas con la resolución de problemas. |
precisión |
zs_cot |
No |
math |
Texto |
Resolución de problemas matemáticos: mide el razonamiento matemático en temas como álgebra, cálculo y problemas verbales. |
exact_match |
zs_cot |
Sí |
strong_reject |
Texto |
Tarea de control de calidad: prueba la capacidad del modelo para detectar y rechazar contenido inapropiado, dañino o incorrecto. |
desviación |
zs |
Sí |
IFEval |
Texto |
Evaluación de seguimiento de instrucciones: mide la precisión con la que un modelo sigue las instrucciones dadas y completa las tareas según las especificaciones. |
precisión |
zs |
No |
gen_qa |
Texto |
Evaluación personalizada de conjuntos de datos: permite utilizar un conjunto de datos propio para realizar evaluaciones comparativas y comparar resultados del modelo con respuestas de referencia con métricas como ROUGE y BLEU. |
all |
gen_qa |
No |
llm_judge |
Texto |
Comparación de preferencias de LLM como juez: utiliza un modelo Nova Judge para determinar la preferencia entre las respuestas emparejadas (B en comparación con A) para las peticiones, calculando la probabilidad de que se prefiera B a A. |
all |
judge |
No |
humaneval |
Texto |
HumanEval: conjunto de datos de referencia diseñado para evaluar las capacidades de generación de código de modelos de lenguaje de gran tamaño |
pass@1 |
zs |
No |
|
mm_llm_judge |
Multimodal (imagen) |
Esta nueva prueba comparativa se comporta igual que la indicada anteriormente, |
all |
judge |
No |
|
rubric_llm_judge |
Text |
Rubric Judge es un modelo de evaluación mejorado de LLM como juez basado en Nova 2.0 Lite. A diferencia del modelo juez original |
all |
judge |
No |
|
aime_2024 |
Text |
AIME 2024: problemas del American Invitational Mathematics Examination (AIME) que ponen a prueba el razonamiento matemático avanzado y la resolución de problemas |
exact_match |
zs_cot |
No |
|
calendar_scheduling |
Text |
Natural Plan: tarea de planificación de calendario que ponen a prueba las capacidades de planificación para programar reuniones a lo largo de varios días y con múltiples personas |
exact_match |
fs |
No |
Están disponibles las siguientes subtareas de mmlu:
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
Están disponibles las siguientes subtareas de bbh:
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
Están disponibles las siguientes subtareas de math:
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]