Tarefas de treinamento do SageMaker AI
A personalização dos modelos do Amazon Nova com Amazon SageMaker Training Jobs segue um fluxo de trabalho estruturado, criado para simplificar o processo complexo de ajuste dos grandes modelos de idiomas. Esse fluxo de trabalho completo engloba treinamento, avaliação e implantação de modelos para inferência. Para obter informações, consulte Customizing Amazon Nova models no Amazon SageMaker AI Developer Guide.
Com o Amazon SageMaker AI, você pode ajustar os modelos de base pré-treinados existentes, como o Amazon Nova, sem precisar treinar do zero seus próprios modelos. As próximas seções detalham as opções de ajuste no SageMaker AI ao trabalhar com os modelos de base do Amazon Nova.
Ajuste completo
O ajuste completo modifica todos os parâmetros dos modelos de base para otimizar sua performance em tarefas ou domínios específicos. Essa abordagem abrangente atualiza toda a arquitetura do modelo, permitindo adaptações mais profundas que os métodos baseados em adaptadores. Para obter mais informações, consulte Fine-tune foundation models.
Como funciona o ajuste completo
Durante o ajuste completo, o modelo aprende fazendo a atualização de todos os seus parâmetros usando os dados do treinamento. Esse processo de ajuste completo:
-
Permite que o modelo desenvolva conhecimentos especializados para o domínio.
-
Permite mudanças significativas nas representações subjacentes do modelo.
-
Requer mais recursos computacionais que os métodos baseados em adaptadores, mas pode alcançar melhor performance em tarefas específicas.
Quando optar pelo ajuste completo
É recomendável usar o ajuste completo nos seguintes cenários:
-
Quando o ajuste PEFT LoRa não atinge os níveis de performance desejados.
-
Para domínios especializados que exigem grande expertise (como áreas médicas, jurídicas ou técnicas).
-
Quando você tem grandes conjuntos de dados de alta qualidade para seu caso de uso.
-
Quando as exigências de precisão pesam mais que as considerações de custo computacional.
-
Para aplicações que exigem um desvio significativo do comportamento do modelo básico.
Ajuste de adaptador de baixo nível
O método mais eficaz e econômico de melhorar a performance do modelo básico é o ajuste eficiente dos parâmetros de adaptador de baixo nível (PEFT LoRa). O princípio subjacente do PEFT LoRa é que apenas um pequeno número de pesos adicionais precisa ser atualizado para adaptar o modelo para novas tarefas ou domínios.
O PEFT LoRa ajusta os modelos de base com eficiência , introduzindo matrizes de pesos treináveis, de baixo nível, em camadas específicas do modelo, reduzindo o número de parâmetros treináveis e mantendo a qualidade do modelo. Um adaptador de PEFT LoRa expande o modelo de base incorporando camadas de adaptador leve que modificam os pesos do modelo durante a inferência, mantendo intactos os parâmetros originais do modelo. Essa abordagem também é considerada uma das técnicas de ajuste mais econômicas. Para obter mais informações, consulte Fine-tune models with adapter inference components.
Quando optar por PEFT LoRa
É recomendável se usar o PEFT LoRa nos seguintes cenários:
-
Geralmente, você deve começar com o PEFT LoRa em vez de outros métodos de ajuste, pois esse é um procedimento de treinamento rápido.
-
O PEFT LoRa é eficaz nos casos em que a performance do modelo básico já é satisfatória. Nesse caso, o objetivo do PEFT LoRa é aprimorar as habilidades do modelo em várias tarefas relacionadas, como resumo de texto ou tradução de idiomas. As propriedades de regularização do PEFT LoRa também ajudam a evitar o excesso de ajuste e a mitigar os riscos de que modelo "esqueça" o domínio original. Isso garante que o modelo continue versátil e adaptável para várias aplicações.
-
Você pode usar o PEFT LoRa para cenários de ajuste de instruções com conjuntos de dados relativamente pequenos. A performance do PEFT LoRa é melhor com conjuntos de dados menores, específicos para as tarefas, que com conjuntos de dados maiores e mais abrangentes.
-
Para grandes conjuntos de dados rotulados que excedam os limites de dados de personalização do Amazon Bedrock, você pode usar o PEFT LoRa no SageMaker AI para gerar melhores resultados.
-
Se você já alcançou resultados promissores com o ajuste do Amazon Bedrock, o PEFT LoRa no SageMaker AI poderá ajudar a otimizar ainda mais os hiperparâmetros do modelo.
Otimização direta de preferências
A otimização direta de preferências (DPO) é um método eficiente de ajuste para modelos de base, que usa dados de comparação emparelhados para alinhar as saídas do modelo com preferências humanas. Essa abordagem permite a otimização direta do comportamento do modelo com base no feedback humano sobre quais são as respostas mais desejáveis.
Por que a DPO é importante
Modelos de base treinados em dados em grande escala geralmente geram resultados que podem ser factualmente corretos, mas não se alinham com as necessidades específicas do usuário, com os valores organizacionais ou com os requisitos de segurança. A DPO resolve essa lacuna, permitindo que você faça o seguinte:
-
Ajuste os modelos de acordo com os padrões de comportamento desejados.
-
Reduza saídas indesejadas ou respostas prejudiciais.
-
Alinhe as respostas do modelo com as diretrizes de voz e comunicação da marca.
-
Melhore a qualidade das respostas com base no feedback de experts no domínio.
Como a DPO funciona
A DPO usa exemplos pareados nos quais avaliadores humanos indicam qual de duas respostas possíveis é a resposta preferida. O modelo aprende a maximizar a probabilidade de gerar respostas preferidas enquanto minimiza as respostas indesejadas. Você implementar a DPO usando uma das seguintes técnicas:
-
DPO completa: atualiza todos os parâmetros do modelo para otimizar as respostas preferidas.
-
DPO baseada em LoRa: usa adaptadores leves para aprender alinhamentos de preferências, o que requer menos recursos computacionais.
Quando optar por usar a DPO
É recomendável usar a DPO nos seguintes cenários:
-
Otimização para resultados subjetivos que exijam alinhamento com preferências humanas específicas.
-
Ajuste do tom, estilo ou características de conteúdo do modelo para atender aos padrões de resposta desejados.
-
Realização de melhorias específicas em um modelo existente com base em feedback dos usuários e análise dos erros.
-
Manutenção de qualidade de saída consistente em diferentes casos de uso.
-
Implementação de barreiras de segurança por meio de padrões de resposta preferenciais.
-
Treinamento com aprendizado por reforço sem recompensa.
-
Uso apenas dados de preferência em vez de dados avaliados ou rotulados.
-
Aprimoramento do modelo em tarefas de alinhamento com nuances, como utilidade, inocuidade ou honestidade.
A DPO é eficaz para refinar iterativamente o comportamento do modelo por meio de conjuntos de dados de preferências cuidadosamente selecionados que demonstram os resultados desejados em comparação com os indesejados. A flexibilidade do método por ser compatível com abordagens completas e abordagens baseadas em LoRA permite que você escolha a implementação mais adequada com base em seus recursos computacionais e requisitos específicos.
Destilação
A destilação de modelos é um método que transfere conhecimento de modelos grandes e avançados para modelos menores e eficientes. Com os modelos do Amazon Nova, um modelo maior "instrutor" (como o Amazon Nova Pro ou o Amazon Nova Premier) transfere suas habilidades para um modelo menor "aprendiz" (como o Amazon Nova Lite ou o Amazon Nova Micro). Isso cria um modelo personalizado que mantém a alta performance usando menos recursos.
Para obter informações sobre como fazer isso usando as tarefas de treinamento do SageMaker AI, consulte Amazon Nova distillation.