As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Personalize um modelo com ajuste fino de reforço no Amazon Bedrock
O ajuste fino por reforço é uma técnica de personalização de modelos no Amazon Bedrock. Ele melhora o desempenho do modelo básico ao ensinar aos modelos o que constitui uma resposta “boa” por meio de sinais de feedback chamados de recompensas. Embora os métodos tradicionais de ajuste fino dependam de conjuntos de dados rotulados, o ajuste fino por reforço usa uma abordagem baseada em feedback. Isso permite que os modelos melhorem iterativamente com base nos sinais de recompensa. Em vez de aprender com exemplos fixos, ele usa funções de recompensa para avaliar e julgar quais respostas são consideradas boas para casos específicos de uso comercial.
O ajuste fino de reforço ensina os modelos a entender o que constitui uma resposta de qualidade. Você não precisa de grandes quantidades de dados de treinamento pré-rotulados. Isso torna a personalização avançada de modelos no Amazon Bedrock mais acessível e econômica.
O recurso oferece suporte a duas abordagens para fornecer flexibilidade para otimizar modelos:
-
Aprendizado por reforço com recompensas verificáveis (RLVR) - usa avaliadores baseados em regras para tarefas objetivas, como geração de código ou raciocínio matemático
-
Aprendizagem por reforço a partir do feedback de IA (RLAIF) - usa juízes baseados em IA para tarefas subjetivas, como acompanhamento de instruções ou moderação de conteúdo
Para obter mais informações, consulte Configurando funções de recompensa.
O ajuste fino do reforço pode fornecer os seguintes benefícios:
-
Desempenho aprimorado do modelo - O ajuste fino do reforço melhora a precisão do modelo em comparação com os modelos básicos. Isso permite a otimização de preço e desempenho por meio do treinamento de variantes de modelos menores, mais rápidas e mais eficientes.
-
Dados de treinamento flexíveis — o Amazon Bedrock automatiza grande parte da complexidade. Isso torna o ajuste fino do reforço acessível aos desenvolvedores que criam aplicativos de IA. Você pode treinar modelos facilmente usando os registros de invocação de modelos existentes do Amazon Bedrock como dados de treinamento ou fazer o upload de seus conjuntos de dados.
-
Segurança e conformidade - Seus dados proprietários nunca saem AWS do ambiente seguro e controlado durante o processo de personalização.
Tópicos
Modelos compatíveis para ajuste fino de reforços
A tabela a seguir mostra os modelos de base que você pode personalizar com o ajuste fino do reforço:
| Fornecedor | Modelo | ID do modelo | Suporte ao modelo de região única |
|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v 1:0:256 k | us-east-1 |
Como funciona o ajuste fino do reforço
O Amazon Bedrock automatiza totalmente o fluxo de trabalho de RFT por meio de um processo de três etapas:
Etapa 1: geração de resposta
O modelo do ator (o modelo que está sendo personalizado) recebe solicitações do seu conjunto de dados de treinamento e gera respostas. Por padrão, ele gera 4 respostas por solicitação. Esse estágio oferece suporte a interações de um único turno e de vários turnos, permitindo uma cobertura abrangente de diferentes casos de uso.
Etapa 2: cálculo da recompensa
Os pares de pronto-resposta gerados pelo modelo de ator são avaliados pelos modelos de otimização selecionados:
-
RLVR - Execute por meio do Lambda para calcular as pontuações dos objetivos
-
RLAIF - Avalie as respostas com base nos critérios e princípios que você configura (o console os converte em funções Lambda automaticamente)
Etapa 3: treinamento do modelo de ator
O Amazon Bedrock usa os pares de resposta rápida com pontuações para treinar o modelo de ator por meio do aprendizado baseado em políticas usando a Otimização de Política Relativa de Grupo (GRPO). O ciclo de treinamento continua iterativamente até que o modelo alcance as métricas de desempenho desejadas ou atenda aos critérios de parada predefinidos.
O Amazon Bedrock gerencia automaticamente a computação paralela de recompensas, a otimização do pipeline de treinamento e implementa proteções contra desafios comuns de aprendizado por reforço, como hacking de recompensas e colapso de políticas.