As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Ajuste fino de reforço (RFT) na Amazon SageMaker HyperPod
O ajuste fino de reforço (RFT) é uma técnica de aprendizado de máquina que melhora o desempenho do modelo por meio de sinais de feedback — pontuações mensuráveis ou recompensas indicando a qualidade da resposta — em vez de supervisão direta com respostas corretas exatas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas.
Essa abordagem é particularmente eficaz para tarefas em que definir a saída exata correta é um desafio, mas você pode medir com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-o ideal para aplicativos que exigem tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que podem ser avaliados programaticamente.
Quando usar o RFT
Use o RFT quando puder definir critérios de sucesso claros e mensuráveis, mas tiver dificuldade em fornecer resultados exatos e corretos para o treinamento. É ideal para tarefas em que a qualidade é subjetiva ou multifacetada, como escrita criativa, otimização de código ou raciocínio complexo, em que existem várias soluções válidas, mas algumas são claramente melhores do que outras.
O RFT funciona melhor quando você tem o seguinte:
-
Uma função de recompensa confiável que pode avaliar as saídas do modelo programaticamente
-
Necessidade de alinhar o comportamento do modelo com preferências ou restrições específicas
-
Situações em que o ajuste fino supervisionado tradicional é insuficiente porque coletar exemplos rotulados de alta qualidade é caro ou impraticável
Considere o RFT para aplicativos que exigem aprimoramento iterativo, personalização ou adesão a regras de negócios complexas que podem ser codificadas como sinais de recompensa.
Para qual RFT é mais adequado
O RFT se destaca em domínios em que a qualidade da saída pode ser medida objetivamente, mas as respostas ideais são difíceis de definir de antemão:
-
Resolução de problemas matemáticos: exatidão verificável com vários caminhos de solução
-
Geração e otimização de código: resultados de execução testáveis e métricas de desempenho
-
Tarefas de raciocínio científico: consistência lógica e precisão factual
-
Análise de dados estruturados: saídas verificáveis programaticamente
-
Raciocínio em várias etapas: tarefas que exigem step-by-step progressão lógica
-
Uso de ferramentas e chamadas de API: sucesso mensurável pelos resultados da execução
-
Fluxos de trabalho complexos: adesão a restrições e regras de negócios específicas
O RFT funciona excepcionalmente bem quando você precisa equilibrar vários objetivos concorrentes, como precisão, eficiência e estilo.
Quando usar o modo de raciocínio para treinamento de RFT
O Amazon Nova 2.0 oferece suporte ao modo de raciocínio durante o treinamento de RFT. Os seguintes modos estão disponíveis:
-
nenhum: Sem raciocínio (omita o campo reasoning_effort)
-
baixo: sobrecarga mínima de raciocínio
-
alto: capacidade máxima de raciocínio (padrão quando reasoning_effort é especificado)
nota
Não há opção média para RFT. Se o campo reasoning_effort estiver ausente da sua configuração, o raciocínio será desativado.
Use um bom raciocínio para o seguinte:
-
Tarefas analíticas complexas
-
Resolução de problemas matemáticos
-
Dedução lógica em várias etapas
-
Tarefas em que step-by-step pensar agrega valor
Use nenhum (omita reasoning_effort) ou raciocínio baixo para o seguinte:
-
Consultas factuais simples
-
Classificações diretas
-
Otimização de velocidade e custo
-
Resposta direta a perguntas
Importante
Modos de raciocínio mais altos aumentam o tempo e o custo do treinamento, a latência e o custo da inferência, mas também aumentam a capacidade do modelo para tarefas complexas de raciocínio.
Modelos compatíveis
O RFT on é SageMaker HyperPod compatível com o Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).
Etapas principais
O processo de RFT envolve quatro fases principais:
-
Implementação de um avaliador: crie uma função de recompensa para pontuar programaticamente as respostas do modelo com base em seus critérios de qualidade.
-
Carregando solicitações: prepare e carregue dados de treinamento no formato conversacional especificado com dados de referência para avaliação.
-
Iniciando um trabalho: inicie o processo de ajuste fino do reforço com seus parâmetros configurados.
-
Monitoramento: acompanhe o progresso do treinamento por meio de painéis de métricas para garantir que o modelo aprenda de forma eficaz.
Cada etapa se baseia na anterior, com o avaliador servindo como base que orienta todo o processo de treinamento, fornecendo sinais de feedback consistentes.