Modelos compatíveis para ajuste fino de reforços Como funciona o ajuste fino do reforço

Personalize um modelo com ajuste fino de reforço no Amazon Bedrock

O ajuste fino por reforço é uma técnica de personalização de modelos no Amazon Bedrock. Ele melhora o desempenho do modelo básico ao ensinar aos modelos o que constitui uma resposta “boa” por meio de sinais de feedback chamados de recompensas. Embora os métodos tradicionais de ajuste fino dependam de conjuntos de dados rotulados, o ajuste fino por reforço usa uma abordagem baseada em feedback. Isso permite que os modelos melhorem iterativamente com base nos sinais de recompensa. Em vez de aprender com exemplos fixos, ele usa funções de recompensa para avaliar e julgar quais respostas são consideradas boas para casos específicos de uso comercial.

O ajuste fino de reforço ensina os modelos a entender o que constitui uma resposta de qualidade. Você não precisa de grandes quantidades de dados de treinamento pré-rotulados. Isso torna a personalização avançada de modelos no Amazon Bedrock mais acessível e econômica.

O recurso oferece suporte a duas abordagens para fornecer flexibilidade para otimizar modelos:

Aprendizado por reforço com recompensas verificáveis (RLVR) - usa avaliadores baseados em regras para tarefas objetivas, como geração de código ou raciocínio matemático
Aprendizagem por reforço a partir do feedback de IA (RLAIF) - usa juízes baseados em IA para tarefas subjetivas, como acompanhamento de instruções ou moderação de conteúdo

Para obter mais informações, consulte Configurando funções de recompensa.

O ajuste fino do reforço pode fornecer os seguintes benefícios:

Desempenho aprimorado do modelo - O ajuste fino do reforço melhora a precisão do modelo em comparação com os modelos básicos. Isso permite a otimização de preço e desempenho por meio do treinamento de variantes de modelos menores, mais rápidas e mais eficientes.
Dados de treinamento flexíveis — o Amazon Bedrock automatiza grande parte da complexidade. Isso torna o ajuste fino do reforço acessível aos desenvolvedores que criam aplicativos de IA. Você pode treinar modelos facilmente usando os registros de invocação de modelos existentes do Amazon Bedrock como dados de treinamento ou fazer o upload de seus conjuntos de dados.
Segurança e conformidade - Seus dados proprietários nunca saem AWS do ambiente seguro e controlado durante o processo de personalização.

Tópicos

Modelos compatíveis para ajuste fino de reforços

A tabela a seguir mostra os modelos de base que você pode personalizar com o ajuste fino do reforço:

Modelos compatíveis para ajuste fino de reforços
Fornecedor	Modelo	ID do modelo	Suporte ao modelo de região única
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0:256 k	us-east-1

Como funciona o ajuste fino do reforço

O Amazon Bedrock automatiza totalmente o fluxo de trabalho de RFT por meio de um processo de três etapas:

Etapa 1: geração de resposta

O modelo do ator (o modelo que está sendo personalizado) recebe solicitações do seu conjunto de dados de treinamento e gera respostas. Por padrão, ele gera 4 respostas por solicitação. Esse estágio oferece suporte a interações de um único turno e de vários turnos, permitindo uma cobertura abrangente de diferentes casos de uso.

Etapa 2: cálculo da recompensa

Os pares de pronto-resposta gerados pelo modelo de ator são avaliados pelos modelos de otimização selecionados:

RLVR - Execute por meio do Lambda para calcular as pontuações dos objetivos
RLAIF - Avalie as respostas com base nos critérios e princípios que você configura (o console os converte em funções Lambda automaticamente)

Etapa 3: treinamento do modelo de ator

O Amazon Bedrock usa os pares de resposta rápida com pontuações para treinar o modelo de ator por meio do aprendizado baseado em políticas usando a Otimização de Política Relativa de Grupo (GRPO). O ciclo de treinamento continua iterativamente até que o modelo alcance as métricas de desempenho desejadas ou atenda aos critérios de parada predefinidos.

O Amazon Bedrock gerencia automaticamente a computação paralela de recompensas, a otimização do pipeline de treinamento e implementa proteções contra desafios comuns de aprendizado por reforço, como hacking de recompensas e colapso de políticas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Enviar uma tarefa de ajuste fino ou pré-treinamento contínuo de modelo

Reforço, aperfeiçoando o acesso e a segurança