Tareas de referencia disponibles

Hay un paquete de códigos de ejemplo que muestra cómo calcular métricas de referencia mediante la característica de evaluación de modelos de SageMaker AI para Amazon Nova. Para acceder a los paquetes de códigos, consulte sample-Nova-lighteval-custom-task.

A continuación se muestra una lista de las referencias estándar del sector disponibles y compatibles. Puede especificar las siguientes referencias para el parámetro eval_task:

Referencia	Modalidad	Descripción	Métricas	Strategy (Estrategia)	Subtarea disponible
mmlu	Texto	Comprensión del lenguaje multitarea: evalúa los conocimientos sobre 57 materias.	precisión	zs_cot	Sí
mmlu_pro	Texto	MMLU (subconjunto profesional): se centra en dominios profesionales como derecho, medicina, contabilidad e ingeniería.	precisión	zs_cot	No
bbh	Texto	Tareas de razonamiento avanzado: conjunto de problemas complejos que ponen a prueba las habilidades cognitivas y de resolución de problemas de nivel superior.	precisión	zs_cot	Sí
gpqa	Texto	Respuesta a preguntas de física general: evalúa la comprensión de conceptos de física y habilidades relacionadas con la resolución de problemas.	precisión	zs_cot	No
math	Texto	Resolución de problemas matemáticos: mide el razonamiento matemático en temas como álgebra, cálculo y problemas verbales.	exact_match	zs_cot	Sí
strong_reject	Texto	Tarea de control de calidad: prueba la capacidad del modelo para detectar y rechazar contenido inapropiado, dañino o incorrecto.	desviación	zs	Sí
IFEval	Texto	Evaluación de seguimiento de instrucciones: mide la precisión con la que un modelo sigue las instrucciones dadas y completa las tareas según las especificaciones.	precisión	zs	No
gen_qa	Texto	Evaluación personalizada de conjuntos de datos: permite utilizar un conjunto de datos propio para realizar evaluaciones comparativas y comparar resultados del modelo con respuestas de referencia con métricas como ROUGE y BLEU.	all	gen_qa	No
llm_judge	Texto	Comparación de preferencias de LLM como juez: utiliza un modelo Nova Judge para determinar la preferencia entre las respuestas emparejadas (B en comparación con A) para las peticiones, calculando la probabilidad de que se prefiera B a A.	all	judge	No
humaneval	Texto	HumanEval: conjunto de datos de referencia diseñado para evaluar las capacidades de generación de código de modelos de lenguaje de gran tamaño	pass@1	zs	No
mm_llm_judge	Multimodal (imagen)	Esta nueva prueba comparativa se comporta igual que la indicada anteriormente, `llm_judge`, la cual está basada en texto. La única diferencia es que admite la inferencia de imágenes.	all	judge	No
rubric_llm_judge	Text	Rubric Judge es un modelo de evaluación mejorado de LLM como juez basado en Nova 2.0 Lite. A diferencia del modelo juez original, que solo proporciona veredictos preferenciales, Rubric Judge genera de forma dinámica criterios de evaluación personalizados adaptados a cada petición y puntúa de forma detallada varias dimensiones.	all	judge	No
aime_2024	Text	AIME 2024: problemas del American Invitational Mathematics Examination (AIME) que ponen a prueba el razonamiento matemático avanzado y la resolución de problemas	exact_match	zs_cot	No
calendar_scheduling	Text	Natural Plan: tarea de planificación de calendario que ponen a prueba las capacidades de planificación para programar reuniones a lo largo de varios días y con múltiples personas	exact_match	fs	No

Están disponibles las siguientes subtareas de mmlu:


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

Están disponibles las siguientes subtareas de bbh:


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Están disponibles las siguientes subtareas de math:


MATH_SUBTASKS = [
    "algebra",
    "counting_and_probability",
    "geometry",
    "intermediate_algebra",
    "number_theory",
    "prealgebra",
    "precalculus",
]

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Evaluación

Comprensión de los parámetros de fórmula