Tarefas de referência disponíveis
Um pacote de código de amostra está disponível para demonstrar como calcular métricas de referência usando o recurso de avaliação de modelo do SageMaker AI para o Amazon Nova. Para acessar os pacotes de código, consulte sample-Nova-lighteval-custom-task
Veja aqui uma lista de referências padrão do setor disponíveis e compatíveis. É possível especificar as seguintes referências no parâmetro eval_task:
Referência |
Modalidade |
Descrição |
Métricas |
Estratégia |
Subtarefa disponível |
|---|---|---|---|---|---|
mmlu |
Texto |
Compreensão de linguagem multitarefa: testa o conhecimento em 57 disciplinas. |
accuracy |
zs_cot |
Sim |
mmlu_pro |
Texto |
MMLU (subconjunto profissional): concentra-se em domínios profissionais como direito, medicina, contabilidade e engenharia. |
accuracy |
zs_cot |
Não |
bbh |
Texto |
Tarefas de raciocínio avançado: um conjunto de problemas desafiadores que testam habilidades cognitivas e de resolução de problemas de nível mais alto. |
accuracy |
zs_cot |
Sim |
gpqa |
Texto |
Resposta a perguntas de física geral: avalia a compreensão de conceitos de física e habilidades relacionadas à resolução de problemas. |
accuracy |
zs_cot |
Não |
math |
Texto |
Resolução de problemas matemáticos: mede o raciocínio matemático em vários tópicos, como álgebra, cálculo e problemas de palavras. |
exact_match |
zs_cot |
Sim |
strong_reject |
Texto |
Tarefa de controle de qualidade: testa a capacidade do modelo de detectar e rejeitar conteúdo impróprio, prejudicial ou incorreto. |
deflection |
zs |
Sim |
IFEval |
Texto |
Avaliação de seguimento de instruções: avalia com que precisão um modelo segue as instruções dadas e conclui as tarefas conforme as especificações. |
accuracy |
zs |
Não |
gen_qa |
Texto |
Avaliação personalizada do conjunto de dados: permite que você utilize seu próprio conjunto de dados para fins de avaliação comparativa, comparando as saídas do modelo para respostas de referência com métricas como ROUGE e BLEU. |
todas |
gen_qa |
Não |
llm_judge |
Texto |
Comparação de preferências do LLM como avaliador: usa um modelo avaliador do Nova para determinar a preferência entre respostas emparelhadas (B em comparação com A) para os prompts, calculando a probabilidade de B ser preferida em relação a A. |
todas |
avaliador |
Não |
humaneval |
Texto |
HumanEval: um conjunto de dados de referência projetado para avaliar as capacidades de geração de código de grandes modelos de linguagem. |
passar@1 |
zs |
Não |
|
mm_llm_judge |
Multimodal (imagem) |
Esta nova avaliação comparativa se comporta da mesma forma que o |
todas |
avaliador |
Não |
|
rubric_llm_judge |
Text |
O Rubric Judge é um modelo aprimorado de avaliação LLM como avaliador criado no Nova 2.0 Lite. Ao contrário do modelo original do avaliador |
todas |
avaliador |
Não |
|
aime_2024 |
Text |
AIME 2024: problemas do American Invitational Mathematics Examination que testam raciocínio matemático avançado e resolução de problemas |
exact_match |
zs_cot |
No |
|
calendar_scheduling |
Text |
Natural Plan: agendamento de calendário, tarefa de teste de habilidades de planejamento para marcar reuniões de vários dias e com várias pessoas |
exact_match |
fs |
No |
As seguintes subtarefas mmlu estão disponíveis:
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
As seguintes subtarefas bbh estão disponíveis:
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
As seguintes subtarefas math estão disponíveis:
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]