As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Personalização do Amazon Nova em trabalhos de SageMaker treinamento
O Amazon SageMaker Training Jobs é um ambiente que permite treinar modelos de aprendizado de máquina em grande escala. Esse ambiente provisiona e escala automaticamente os recursos de computação, carrega dados de treinamento de origens como o Amazon S3, executa o código de treinamento e armazena os artefatos de modelo resultantes.
O objetivo do treinamento é personalizar o modelo de base do Amazon Nova usando seus dados proprietários. O processo de treinamento geralmente envolve etapas para preparar seus dados, escolher uma fórmula, modificar os parâmetros de configuração nos arquivos YAML e enviar uma tarefa de treinamento. Ele produzirá um ponto de verificação de modelo treinado em um bucket do Amazon S3 gerenciado pelo serviço. Você pode usar esse local de ponto de verificação para tarefas de avaliação. A personalização do Nova em trabalhos SageMaker de treinamento armazena artefatos de modelo em um bucket Amazon S3 gerenciado por serviços. Os artefatos no bucket gerenciado pelo serviço são criptografados com chaves KMS SageMaker gerenciadas. No momento, os buckets do Amazon S3 gerenciados pelo serviço não são compatíveis com criptografia de dados usando chaves do KMS gerenciadas pelo cliente.
Visão geral do
Esta seção fornece uma visão geral das técnicas de personalização e ajuda você a escolher a melhor abordagem para suas necessidades e dados disponíveis.
Duas etapas do treinamento LLM
O treinamento em grandes modelos de linguagem consiste em dois estágios principais: pré-treinamento e pós-treinamento. Durante o pré-treinamento, o modelo processa tokens de texto bruto e otimiza a previsão do próximo token. Esse processo cria um completador de padrões que absorve a sintaxe, a semântica, os fatos e os padrões de raciocínio da web e do texto selecionado. No entanto, o modelo pré-treinado não compreende as instruções, as metas do usuário ou o comportamento adequado ao contexto. Ele continua o texto em qualquer estilo adequado à sua distribuição de treinamento. Um modelo pré-treinado é preenchido automaticamente em vez de seguir as instruções, produz formatação inconsistente e pode espelhar preconceitos indesejáveis ou conteúdo inseguro dos dados de treinamento. O pré-treinamento desenvolve a competência geral, não a utilidade da tarefa.
O pós-treinamento transforma o completador de padrões em um assistente útil. Você executa várias rodadas de ajuste fino supervisionado (SFT) para ensinar o modelo a seguir instruções, aderir a esquemas e políticas, chamar ferramentas e produzir resultados confiáveis imitando demonstrações de alta qualidade. Esse alinhamento ensina o modelo a responder às solicitações como tarefas, em vez de texto para continuar. Em seguida, você aplica o Reforcement Fine-Tuning (RFT) para otimizar o comportamento usando feedback mensurável (como verificadores ou um LLM-as-a-judge), equilibrando compensações como precisão versus brevidade, segurança versus cobertura ou raciocínio em várias etapas sob restrições. Na prática, você alterna SFT e RFT em ciclos para transformar o modelo pré-treinado em um sistema confiável e alinhado a políticas que executa tarefas complexas de forma consistente.
Escolha a abordagem de personalização certa
Nesta seção, abordaremos as estratégias de personalização pós-treinamento: RFT e SFT.
Ajuste fino de reforço (RFT)
O ajuste fino do reforço melhora o desempenho do modelo por meio de sinais de feedback — pontuações mensuráveis ou recompensas que indicam a qualidade da resposta — em vez de supervisão direta com respostas exatas e corretas. Ao contrário do ajuste fino supervisionado tradicional que aprende com pares de entrada e saída, o RFT usa funções de recompensa para avaliar as respostas do modelo e otimiza iterativamente o modelo para maximizar essas recompensas. Essa abordagem funciona bem para tarefas em que definir a saída correta exata é um desafio, mas você pode medir com segurança a qualidade da resposta. O RFT permite que os modelos aprendam comportamentos e preferências complexos por meio de testes e feedback, tornando-o ideal para aplicativos que exigem tomada de decisão diferenciada, solução criativa de problemas ou adesão a critérios de qualidade específicos que você pode avaliar programaticamente. Por exemplo, responder questões jurídicas complexas é um caso de uso ideal para a RFT porque você quer ensinar ao modelo como raciocinar melhor para responder perguntas com mais precisão.
Como funciona
No ajuste fino de reforço, você parte de uma linha de base ajustada às instruções e trata cada prompt como um pequeno torneio. Para uma determinada entrada, você coleta amostras de algumas respostas candidatas do modelo, pontua cada uma com a função de recompensa e as classifica dentro desse grupo. A etapa de atualização aprimora o modelo para tornar os candidatos com pontuação mais alta mais prováveis na próxima vez e os com pontuação mais baixa menos prováveis, enquanto uma stay-close-to-baseline restrição evita que o comportamento mude ou se torne prolixo ou explorador. Você repete esse ciclo em várias solicitações, atualizando casos difíceis, reforçando os verificadores ou avaliando rubricas quando vê explorações e rastreando continuamente as métricas das tarefas.
Quando usar o RFT
As tarefas que mais se beneficiam do RFT compartilham várias características. Eles têm sinais de sucesso mensuráveis mesmo quando é difícil especificar uma única saída correta. Eles admitem crédito parcial ou qualidade graduada para que você possa classificar respostas melhores e piores em um prompt ou usando uma função de recompensa. Eles envolvem vários objetivos que devem ser equilibrados (como precisão com brevidade, clareza, segurança ou custo). Eles exigem o cumprimento de restrições explícitas que você pode verificar programaticamente. Eles operam em ambientes mediados por ferramentas ou baseados no ambiente, onde os resultados são observáveis (sucesso ou falha, latência, uso de recursos). Eles ocorrem em regimes de baixo rótulo, onde coletar alvos dourados é caro, mas o feedback automatizado ou baseado em rubricas é abundante. O RFT funciona melhor quando você pode transformar a qualidade em um escalar ou classificação confiável e deseja que o modelo amplifique preferencialmente os comportamentos de maior pontuação sem precisar de metas rotuladas exaustivas.
Considere outros métodos quando:
-
Você tem pares de entrada-saída rotulados abundantes e confiáveis — Use SFT
-
A principal lacuna é o conhecimento ou o jargão — Use a geração aumentada de recuperação (RAG)
-
Seu sinal de recompensa é barulhento ou não é confiável e você não pode corrigi-lo com rubricas ou damas melhores — estabilize-o primeiro antes do RFT
Quando não usar o RFT
Evite o RFT nessas situações:
-
Você pode produzir de forma barata pares de entrada-saída rotulados confiáveis (o SFT é mais simples, barato e mais estável)
-
A lacuna é conhecimento ou jargão, em vez de comportamento (use RAG)
-
Seu sinal de recompensa é ruidoso, esparso, fácil de jogar, caro ou lento de calcular (corrija primeiro o avaliador)
-
O desempenho básico é próximo de zero (inicialize com SFT antes de otimizar as preferências)
-
A tarefa tem esquemas determinísticos, formatação estrita ou uma única resposta correta (SFT ou validação baseada em regras funciona melhor)
-
Orçamentos apertados de latência ou custo não conseguem absorver a amostragem ou exploração extra que a RFT exige
-
As restrições de segurança ou políticas não são especificadas de forma precisa e aplicáveis na recompensa
Se você puder apontar para “a resposta certa”, use o SFT. Se você precisar de novos conhecimentos, use o RAG. Use o RFT somente depois de ter uma linha de base sólida e uma função de hard-to-exploit recompensa robusta e rápida.
Ajuste fino supervisionado (SFT)
O ajuste fino supervisionado treina o LLM em um conjunto de dados de pares de entrada-saída rotulados por humanos para sua tarefa. Você fornece exemplos de solicitações (perguntas, instruções etc.) com as respostas corretas ou desejadas e continua treinando o modelo nesses exemplos. O modelo ajusta seus pesos para minimizar uma perda supervisionada (normalmente entropia cruzada entre suas previsões e os tokens de saída de destino). Esse é o mesmo treinamento usado na maioria das tarefas supervisionadas de aprendizado de máquina, aplicado para especializar um LLM.
O SFT muda o comportamento, não o conhecimento. Ele não ensina ao modelo novos fatos ou jargões que ele não via no pré-treinamento. Ela ensina ao modelo como responder, não o que saber. Se você precisar de um novo conhecimento de domínio (como terminologia interna), use a geração aumentada de recuperação (RAG) para fornecer esse contexto no momento da inferência. Em seguida, o SFT adiciona o comportamento desejado de seguir as instruções na parte superior.
Como funciona
O SFT otimiza o LLM minimizando a perda média de entropia cruzada nos tokens de resposta, tratando os tokens imediatos como contexto e mascarando-os da perda. O modelo internaliza seu estilo, estrutura e regras de decisão alvo, aprendendo a gerar o preenchimento correto para cada solicitação. Por exemplo, para classificar documentos em categorias personalizadas, você ajusta o modelo com avisos (o texto do documento) e conclusões rotuladas (os rótulos das categorias). Você treina nesses pares até que o modelo produza o rótulo correto para cada solicitação com alta probabilidade.
Você pode executar o SFT com apenas algumas centenas de exemplos e escalar até algumas centenas de milhares. As amostras SFT devem ser de alta qualidade e estar diretamente alinhadas com o comportamento desejado do modelo.
Quando usar o SFT
Use o SFT quando tiver uma tarefa bem definida com as saídas desejadas claras. Se você puder declarar explicitamente “Dada a entrada X, a saída correta é Y” e reunir exemplos desses mapeamentos, o ajuste fino supervisionado é uma boa escolha. O SFT se destaca nesses cenários:
-
Tarefas de classificação estruturadas ou complexas — Classifique documentos ou contratos internos em várias categorias personalizadas. Com o SFT, o modelo aprende essas categorias específicas melhor do que apenas solicitando.
-
Tarefas de resposta ou transformação de perguntas com respostas conhecidas — ajuste um modelo para responder perguntas da base de conhecimento de uma empresa ou converta dados entre formatos em que cada entrada tenha uma resposta correta.
-
Formatação e consistência de estilo — Treine o modelo para sempre responder em um determinado formato ou tom, ajustando exemplos do formato ou tom corretos. Por exemplo, o treinamento em pares de resposta rápida que demonstram a voz de uma marca específica ensina o modelo a gerar resultados com esse estilo. O comportamento de seguir as instruções geralmente é ensinado inicialmente por meio do SFT em exemplos selecionados de bom comportamento do assistente.
O SFT é a maneira mais direta de ensinar a um LLM uma nova habilidade ou comportamento quando você pode especificar qual é o comportamento correto. Ele usa o entendimento da linguagem existente do modelo e o concentra em sua tarefa. Use o SFT quando quiser que o modelo faça algo específico e você tiver ou puder criar um conjunto de dados de exemplos.
Use o SFT quando puder montar pares de solicitações e respostas de alta qualidade que espelhem de perto o comportamento desejado. Ele se adapta a tarefas com metas claras ou formatos determinísticos, como esquemas, chamadas de funções ou ferramentas e respostas estruturadas, nas quais a imitação é um sinal de treinamento apropriado. O objetivo é moldar o comportamento: ensinar o modelo a tratar solicitações como tarefas, seguir instruções, adotar políticas de tom e recusa e produzir uma formatação consistente. Planeje pelo menos centenas de demonstrações, com qualidade, consistência e desduplicação de dados importando mais do que o volume bruto. Para uma atualização direta e econômica, use métodos eficientes em termos de parâmetros, como o Low-Rank Adaptation, para treinar adaptadores pequenos e, ao mesmo tempo, deixar a maior parte do backbone intocada.
Quando não usar o SFT
Não use SFT quando a lacuna é conhecimento e não comportamento. Não ensina ao modelo novos fatos, jargões ou eventos recentes. Nesses casos, use a geração aumentada de recuperação para trazer conhecimento externo para inferência. Evite o SFT quando você pode medir a qualidade, mas não consegue rotular uma única resposta certa. Use o ajuste fino de reforço com recompensas verificáveis ou LLM-as-a-judge para otimizar essas recompensas diretamente. Se suas necessidades ou conteúdo mudarem com frequência, confie na recuperação e no uso de ferramentas em vez de treinar novamente o modelo.