Avaliação do modelo de raciocínio - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avaliação do modelo de raciocínio

Visão geral do

O suporte ao modelo de raciocínio permite a avaliação com modelos Nova capazes de raciocinar que realizam raciocínio interno explícito antes de gerar respostas finais. Esse recurso usa o controle em nível de API por meio do parâmetro reasoning_effort para habilitar ou desabilitar dinamicamente a funcionalidade de raciocínio, melhorando potencialmente a qualidade da resposta para tarefas analíticas complexas.

Modelos compatíveis

  • amazon.nova-2-lite-v1:0:256k

Configuração de fórmula

Habilite o raciocínio adicionando o parâmetro reasoning_effort à seção inference da sua fórmula:

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

Uso do parâmetro reasoning_effort

O parâmetro reasoning_effort controla o comportamento do raciocínio para modelos capazes de raciocinar.

Pré-requisitos

  • Compatibilidade do modelo — Definido reasoning_effort somente quando model_type especifica um modelo capaz de raciocinar (atualmente) amazon.nova-2-lite-v1:0:256k

  • Tratamento de erros — O uso reasoning_effort com modelos não suportados falhará com ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

Opções disponíveis

Opção Comportamento Limite de tokens Caso de uso
null (padrão) Desabilita o modo de raciocínio N/D Avaliação padrão sem sobrecarga de raciocínio
low Permite o raciocínio com restrições 4 mil tokens para raciocínio interno Cenários que exigem raciocínio conciso; otimiza em termos de velocidade e custo
high Permite o raciocínio sem restrições Nenhum limite de token no raciocínio interno Problemas complexos que exigem análise e step-by-step raciocínio extensivos
modo de treinamento Opções disponíveis Como configurar
SFT (Ajuste Fino Supervisionado) Somente alto ou desativado Use reasoning_enabled: true (high) ou reasoning_enabled: false (off)
RFT (Ajuste Fino de Reforço) Baixo, Alto ou Desligado Use reasoning_effort: low ou reasoning_effort: high. Omita o campo a ser desativado.
Avaliação Baixo, Alto ou Desligado Use reasoning_effort: low ou reasoning_effort: high. Use null para desativar.

Quando habilitar o raciocínio

Use o modo de raciocínio (lowouhigh) para

  • Tarefas complexas de resolução de problemas (cálculo, quebra-cabeças lógicos, codificação)

  • Perguntas analíticas de várias etapas que exigem raciocínio intermediário

  • Tarefas em que explicações ou step-by-step pensamentos detalhados melhoram a precisão

  • Cenários em que a qualidade da resposta é priorizada em relação à velocidade

Use o modo sem raciocínio (nullou omita o parâmetro) para

  • Perguntas e respostas simples ou consultas factuais

  • Tarefas de escrita criativa

  • Quando tempos de resposta mais rápidos são essenciais

  • Avaliação comparativa de performance em que a sobrecarga de raciocínio deve ser excluída

  • Otimização de custos quando o raciocínio não melhora a performance da tarefa

Solução de problemas

Erro: “o modo de raciocínio está habilitado, mas o modelo não é compatível com ele”

Causa: o parâmetro reasoning_effort está definido como um valor não nulo, mas o model_type especificado não é compatível com o raciocínio.

Resolução:

  • Verifique se o tipo de modelo é amazon.nova-2-lite-v1:0:256k

  • Se estiver usando um modelo diferente, mude para um modelo capaz de raciocinar ou remova o parâmetro reasoning_effort da sua fórmula