Ajuste fino de reforço (RFT) na Amazon SageMaker HyperPod - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Ajuste fino de reforço (RFT) na Amazon SageMaker HyperPod

O ajuste fino de reforço (RFT) é uma técnica de aprendizado de máquina que melhora o desempenho do modelo por meio de sinais de feedback — pontuações mensuráveis ou recompensas indicando a qualidade da resposta — em vez de supervisão direta com respostas corretas exatas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas.

Essa abordagem é particularmente eficaz para tarefas em que definir a saída exata correta é um desafio, mas você pode medir com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-o ideal para aplicativos que exigem tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que podem ser avaliados programaticamente.

Quando usar o RFT

Use o RFT quando puder definir critérios de sucesso claros e mensuráveis, mas tiver dificuldade em fornecer resultados exatos e corretos para o treinamento. É ideal para tarefas em que a qualidade é subjetiva ou multifacetada, como escrita criativa, otimização de código ou raciocínio complexo, em que existem várias soluções válidas, mas algumas são claramente melhores do que outras.

O RFT funciona melhor quando você tem o seguinte:

  • Uma função de recompensa confiável que pode avaliar as saídas do modelo programaticamente

  • Necessidade de alinhar o comportamento do modelo com preferências ou restrições específicas

  • Situações em que o ajuste fino supervisionado tradicional é insuficiente porque coletar exemplos rotulados de alta qualidade é caro ou impraticável

Considere o RFT para aplicativos que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas que podem ser codificadas como sinais de recompensa.

Para qual RFT é mais adequado

O RFT se destaca em domínios em que a qualidade da saída pode ser medida objetivamente, mas as respostas ideais são difíceis de definir de antemão:

  • Resolução de problemas matemáticos: exatidão verificável com vários caminhos de solução

  • Geração e otimização de código: resultados de execução testáveis e métricas de desempenho

  • Tarefas de raciocínio científico: consistência lógica e precisão factual

  • Análise de dados estruturados: saídas verificáveis programaticamente

  • Raciocínio em várias etapas: tarefas que exigem step-by-step progressão lógica

  • Uso de ferramentas e chamadas de API: sucesso mensurável pelos resultados da execução

  • Fluxos de trabalho complexos: adesão a restrições e regras de negócios específicas

O RFT funciona excepcionalmente bem quando você precisa equilibrar vários objetivos concorrentes, como precisão, eficiência e estilo.

Quando usar o modo de raciocínio para treinamento de RFT

O Amazon Nova 2.0 oferece suporte ao modo de raciocínio durante o treinamento de RFT. Os seguintes modos estão disponíveis:

  • nenhum: Sem raciocínio (omita o campo reasoning_effort)

  • baixo: sobrecarga mínima de raciocínio

  • alto: capacidade máxima de raciocínio (padrão quando reasoning_effort é especificado)

nota

Não há opção média para RFT. Se o campo reasoning_effort estiver ausente da sua configuração, o raciocínio será desativado.

Use um bom raciocínio para o seguinte:

  • Tarefas analíticas complexas

  • Resolução de problemas matemáticos

  • Dedução lógica em várias etapas

  • Tarefas em que step-by-step pensar agrega valor

Use nenhum (omita reasoning_effort) ou raciocínio baixo para o seguinte:

  • Consultas factuais simples

  • Classificações diretas

  • Otimização de velocidade e custo

  • Resposta direta a perguntas

Importante

Modos de raciocínio mais altos aumentam o tempo e o custo do treinamento, a latência e o custo da inferência, mas também aumentam a capacidade do modelo para tarefas complexas de raciocínio.

Modelos compatíveis

O RFT on é SageMaker HyperPod compatível com o Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).

Etapas principais

O processo de RFT envolve quatro fases principais:

  • Implementação de um avaliador: crie uma função de recompensa para pontuar programaticamente as respostas do modelo com base em seus critérios de qualidade.

  • Carregando solicitações: prepare e carregue dados de treinamento no formato conversacional especificado com dados de referência para avaliação.

  • Iniciando um trabalho: inicie o processo de ajuste fino do reforço com seus parâmetros configurados.

  • Monitoramento: acompanhe o progresso do treinamento por meio de painéis de métricas para garantir que o modelo aprenda de forma eficaz.

Cada etapa se baseia na anterior, com o avaliador servindo como base que orienta todo o processo de treinamento, fornecendo sinais de feedback consistentes.