As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Prepare seus dados de treinamento e funções de recompensa para o ajuste fino do reforço
Para criar um trabalho de ajuste fino de reforço, você precisa de dados de treinamento e funções de recompensa que avaliem a qualidade da resposta. Ao contrário do ajuste fino tradicional, que requer pares de entrada e saída, o RFT usa instruções e sinais de recompensa para orientar o aprendizado do modelo.
Você pode usar os registros de invocação da API Amazon Bedrock existentes como dados de treinamento ou fazer upload de novos conjuntos de dados. As funções de recompensa definem o que constitui uma boa resposta e podem usar verificação baseada em regras (RLVR) ou julgamento baseado em IA (RLAIF).
Importante
Você pode fornecer no máximo 20 mil solicitações ao Amazon Bedrock para reforçar o ajuste fino do modelo.