Aprendizagem por reforço por meio de recompensas verificáveis (RLVR)Aprendizagem por reforço por meio de feedback de IA (RLAIF)Detalhes da implementação da função Lambda

Configurando funções de recompensa para modelos Amazon Nova

As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Você pode configurar funções de recompensa usando funções personalizadas do Lambda ou modelos de fundação hospedados no Amazon Bedrock como juízes. Modelos guiados estão disponíveis para simplificar a criação de funções de recompensa para tarefas comuns, como acompanhamento de instruções e validação de formato. Escolha a abordagem que corresponda aos requisitos da sua tarefa.

Aprendizagem por reforço por meio de recompensas verificáveis (RLVR)

O RLVR otimiza modelos para tarefas objetivas, como geração de código ou raciocínio matemático, usando avaliadores ou modelos baseados em regras verificáveis. ready-to-use

Você tem duas opções para RLVR (Código Personalizado):

O console Amazon Bedrock fornece exemplos de modelos para as funções do nivelador Lambda:

Raciocínio matemático com verificação da verdade básica
Validação de formato e verificação de restrições
Modelo Lambda de avaliador genérico com código padronizado

Siga as instruções no modelo fornecido na página de trabalho Create RFT no console Amazon Bedrock.

Crie funções de recompensa personalizadas usando seu próprio ARN do Lambda para cálculos lógicos complexos APIs, externos e de várias etapas ou combinando vários critérios de avaliação.

nota

Se você trouxer sua própria função Lambda, tenha em mente o seguinte:

Aumente o tempo limite do Lambda do padrão de 3 segundos para o máximo 15 minutos para avaliações complexas.
A função de execução do Lambda precisa de permissões para invocar modelos, conforme descrito em. Acesso e segurança para modelos Amazon Nova

Aprendizagem por reforço por meio de feedback de IA (RLAIF)

O RLAIF otimiza modelos para tarefas subjetivas, como acompanhamento de instruções ou interações de chatbots, usando juízes baseados em IA com modelos. ready-to-use

Para RLAIF (modelo como juiz):

Selecione um modelo base hospedado no Amazon Bedrock como juiz
Configurar instruções para avaliação
Definir critérios de avaliação e diretrizes de pontuação

Modelos de LLM-as-Judge prompt disponíveis no console Amazon Bedrock:

Instrução seguinte (treinamento do modelo Judge)
Sumarização (caixas de diálogo com várias voltas)
Avaliação do raciocínio (CoT para domínios especializados)
Fidelidade ao RAG (perguntas e respostas baseadas no contexto)

nota

A opção Model as Judge do console converte automaticamente sua configuração em uma função Lambda durante o treinamento.

Detalhes da implementação da função Lambda

Ao implementar funções personalizadas de recompensa do Lambda, sua função deve aceitar e retornar dados no formato a seguir.

Diretrizes de design

Classifique as respostas — Dê à melhor resposta uma pontuação claramente mais alta
Use verificações consistentes — Avalie a conclusão da tarefa, a aderência ao formato, a segurança e a duração razoável
Mantenha o escalonamento estável — mantenha as pontuações normalizadas e não exploráveis

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Preparar dados

Crie trabalhos de ajuste fino