Configurando funções de recompensa para modelos Amazon Nova - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando funções de recompensa para modelos Amazon Nova

As funções de recompensa avaliam a qualidade da resposta e fornecem sinais de feedback para o treinamento do modelo. Você pode configurar funções de recompensa usando funções personalizadas do Lambda ou modelos de fundação hospedados no Amazon Bedrock como juízes. Modelos guiados estão disponíveis para simplificar a criação de funções de recompensa para tarefas comuns, como acompanhamento de instruções e validação de formato. Escolha a abordagem que corresponda aos requisitos da sua tarefa.

Aprendizagem por reforço por meio de recompensas verificáveis (RLVR)

O RLVR otimiza modelos para tarefas objetivas, como geração de código ou raciocínio matemático, usando avaliadores ou modelos baseados em regras verificáveis. ready-to-use

Você tem duas opções para RLVR (Código Personalizado):

O console Amazon Bedrock fornece exemplos de modelos para as funções do nivelador Lambda:

  • Raciocínio matemático com verificação da verdade básica

  • Validação de formato e verificação de restrições

  • Modelo Lambda de avaliador genérico com código padronizado

Siga as instruções no modelo fornecido na página de trabalho Create RFT no console Amazon Bedrock.

Crie funções de recompensa personalizadas usando seu próprio ARN do Lambda para cálculos lógicos complexos APIs, externos e de várias etapas ou combinando vários critérios de avaliação.

nota

Se você trouxer sua própria função Lambda, tenha em mente o seguinte:

  • Aumente o tempo limite do Lambda do padrão de 3 segundos para o máximo 15 minutos para avaliações complexas.

  • A função de execução do Lambda precisa de permissões para invocar modelos, conforme descrito em. Acesso e segurança para modelos Amazon Nova

Aprendizagem por reforço por meio de feedback de IA (RLAIF)

O RLAIF otimiza modelos para tarefas subjetivas, como acompanhamento de instruções ou interações de chatbots, usando juízes baseados em IA com modelos. ready-to-use

Para RLAIF (modelo como juiz):

  • Selecione um modelo base hospedado no Amazon Bedrock como juiz

  • Configurar instruções para avaliação

  • Definir critérios de avaliação e diretrizes de pontuação

Modelos de LLM-as-Judge prompt disponíveis no console Amazon Bedrock:

  • Instrução seguinte (treinamento do modelo Judge)

  • Sumarização (caixas de diálogo com várias voltas)

  • Avaliação do raciocínio (CoT para domínios especializados)

  • Fidelidade ao RAG (perguntas e respostas baseadas no contexto)

nota

A opção Model as Judge do console converte automaticamente sua configuração em uma função Lambda durante o treinamento.

Detalhes da implementação da função Lambda

Ao implementar funções personalizadas de recompensa do Lambda, sua função deve aceitar e retornar dados no formato a seguir.

Input structure
[{ "id": "123", "messages": [ { "role": "user", "content": "Do you have a dedicated security team?" }, { "role": "assistant", "content": "As an AI developed by Amazon, I don not have a dedicated security team..." } ], "metadata": { "reference_answer": { "compliant": "No", "explanation": "As an AI developed by Company, I do not have a traditional security team..." }, "my_key": "sample-001" } }]
Output structure
[{ "id": "123", "aggregate_reward_score": 0.85, "metrics_list": [ { "name": "accuracy", "value": 0.9, "type": "Reward" }, { "name": "policy_compliance", "value": 0.8, "type": "Metric" } ] }]

Diretrizes de design

  • Classifique as respostas — Dê à melhor resposta uma pontuação claramente mais alta

  • Use verificações consistentes — Avalie a conclusão da tarefa, a aderência ao formato, a segurança e a duração razoável

  • Mantenha o escalonamento estável — mantenha as pontuações normalizadas e não exploráveis