Tarefas de referência disponíveis - Amazon Nova

Tarefas de referência disponíveis

Um pacote de código de amostra está disponível para demonstrar como calcular métricas de referência usando o recurso de avaliação de modelo do SageMaker AI para o Amazon Nova. Para acessar os pacotes de código, consulte sample-Nova-lighteval-custom-task.

Veja aqui uma lista de referências padrão do setor disponíveis e compatíveis. É possível especificar as seguintes referências no parâmetro eval_task:

Referência

Modalidade

Descrição

Métricas

Estratégia

Subtarefa disponível

mmlu

Texto

Compreensão de linguagem multitarefa: testa o conhecimento em 57 disciplinas.

accuracy

zs_cot

Sim

mmlu_pro

Texto

MMLU (subconjunto profissional): concentra-se em domínios profissionais como direito, medicina, contabilidade e engenharia.

accuracy

zs_cot

Não

bbh

Texto

Tarefas de raciocínio avançado: um conjunto de problemas desafiadores que testam habilidades cognitivas e de resolução de problemas de nível mais alto.

accuracy

zs_cot

Sim

gpqa

Texto

Resposta a perguntas de física geral: avalia a compreensão de conceitos de física e habilidades relacionadas à resolução de problemas.

accuracy

zs_cot

Não

math

Texto

Resolução de problemas matemáticos: mede o raciocínio matemático em vários tópicos, como álgebra, cálculo e problemas de palavras.

exact_match

zs_cot

Sim

strong_reject

Texto

Tarefa de controle de qualidade: testa a capacidade do modelo de detectar e rejeitar conteúdo impróprio, prejudicial ou incorreto.

deflection

zs

Sim

IFEval

Texto

Avaliação de seguimento de instruções: avalia com que precisão um modelo segue as instruções dadas e conclui as tarefas conforme as especificações.

accuracy

zs

Não

gen_qa

Texto

Avaliação personalizada do conjunto de dados: permite que você utilize seu próprio conjunto de dados para fins de avaliação comparativa, comparando as saídas do modelo para respostas de referência com métricas como ROUGE e BLEU.

todas

gen_qa

Não

llm_judge

Texto

Comparação de preferências do LLM como avaliador: usa um modelo avaliador do Nova para determinar a preferência entre respostas emparelhadas (B em comparação com A) para os prompts, calculando a probabilidade de B ser preferida em relação a A.

todas

avaliador

Não

humaneval

Texto

HumanEval: um conjunto de dados de referência projetado para avaliar as capacidades de geração de código de grandes modelos de linguagem.

passar@1

zs

Não

mm_llm_judge

Multimodal (imagem)

Esta nova avaliação comparativa se comporta da mesma forma que o llm_judge baseado em texto acima. A única diferença é que ele é compatível com a inferência de imagens.

todas

avaliador

Não

rubric_llm_judge

Text

O Rubric Judge é um modelo aprimorado de avaliação LLM como avaliador criado no Nova 2.0 Lite. Ao contrário do modelo original do avaliador, que fornece apenas veredictos preferenciais, o Rubric Judge gera dinamicamente critérios de avaliação personalizados para cada prompt e atribui pontuações granulares em várias dimensões.

todas

avaliador

Não

aime_2024

Text

AIME 2024: problemas do American Invitational Mathematics Examination que testam raciocínio matemático avançado e resolução de problemas

exact_match

zs_cot

No

calendar_scheduling

Text

Natural Plan: agendamento de calendário, tarefa de teste de habilidades de planejamento para marcar reuniões de vários dias e com várias pessoas

exact_match

fs

No

As seguintes subtarefas mmlu estão disponíveis:

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

As seguintes subtarefas bbh estão disponíveis:

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

As seguintes subtarefas math estão disponíveis:

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]