As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configurando funções de recompensa
As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Escolha a abordagem que corresponda aos requisitos da sua tarefa.
Aprendizagem por reforço por meio de recompensas verificáveis (RLVR)
O RLVR permite otimizar modelos para tarefas objetivas, como geração de código ou raciocínio matemático. Você pode definir funções de recompensa usando avaliadores baseados em regras verificáveis ou usar ready-to-use modelos para casos de uso comuns, como verificações de formato, resumo e semelhança de texto.
Você tem duas opções para RLVR (Código Personalizado):
-
Use modelos fornecidos pelo console - O console Amazon Bedrock fornece exemplos de modelos para as funções do grader Lambda:
-
Raciocínio matemático com verificação da verdade básica
-
Validação de formato e verificação de restrições
-
Modelo genérico do Lambda do avaliador com código padronizado para a função Lambda do seu avaliador
Antes de configurar sua função Lambda, siga as instruções no modelo fornecido na página Create RFT job no console Amazon
Bedrock. -
-
Traga sua própria função do Lambda — Crie funções de recompensa personalizadas executadas por meio de funções do Lambda usando seu próprio ARN do Lambda. Você pode combinar vários avaliadores para produzir uma única pontuação.
Aprendizagem por reforço por meio de feedback de IA (RLAIF)
O RLAIF permite a otimização de tarefas subjetivas, como acompanhamento de instruções ou interações com chatbots. Você pode usar juízes baseados em IA com ready-to-use modelos para casos de uso comuns para avaliar a qualidade da resposta com base nos critérios definidos por você.
Para RLAIF (modelo como juiz):
-
Selecione um modelo base hospedado no Amazon Bedrock como juiz
-
Configurar instruções para avaliação
-
Definir critérios de avaliação e diretrizes de pontuação
Você pode usar os modelos de LLM-as-Judge prompt fornecidos no console Amazon Bedrock:
-
Instrução seguinte (treinamento do modelo Judge)
-
Sumarização (caixas de diálogo com várias voltas)
-
Avaliação do raciocínio (CoT para domínios especializados)
-
Fidelidade ao RAG (perguntas e respostas baseadas no contexto)
nota
-
Quando você usa a opção Model as Judge do console, o Amazon Bedrock converte automaticamente sua configuração em uma função Lambda que é executada durante o treinamento.
-
Se você trouxer sua própria função do Lambda, a função de execução do Lambda precisará das permissões necessárias para invocar modelos com ID do modelo ou perfil de inferência, conforme descrito em. Permissões da função Grader Lambda para RLAIF