As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Pré-treinamento contínuo e treinamento intermediário
nota
A documentação detalhada é fornecida após a inscrição
O CTP do Nova Forge oferece recursos avançados além do CPT padrão, incluindo acesso a pontos de verificação intermediários e uma combinação de dados com o corpus de pré-treinamento do Nova. Esses recursos permitem uma adaptação mais eficiente do domínio e uma melhor preservação dos recursos gerais do modelo.
O que são pontos de verificação intermediários e por que eles são necessários?
Os pontos de verificação intermediários são snapshots do modelo do Amazon Nova salvos em diferentes etapas do pré-treinamento, antes que o modelo atinja seu estado final pronto para produção. Durante o desenvolvimento do modelo, o Amazon Nova passa por várias fases de treinamento: pré-treinamento inicial com taxa de aprendizado constante, redução da taxa de aprendizado, treinamento de extensão de contexto e, finalmente, treinamento de segurança e alinhamento para seguir as instruções. Para o CPT, os pontos de verificação intermediários geralmente são preferíveis ao ponto de verificação final de produção porque são mais plásticos e receptivos à adaptação do domínio. O ponto de verificação de produção passou por um extenso treinamento de segurança e alinhamento para seguir as instruções, o que otimiza o modelo para uso conversacional geral, mas pode torná-lo resistente ao aprendizado de novos padrões específicos de domínio durante o CPT. Por outro lado, os pontos de verificação somente com texto pré-treinado parcial e totalmente mantêm as características de pré-treinamento do modelo. Eles não foram fortemente orientados para comportamentos específicos, o que os torna pontos de partida mais eficientes para a adaptação de domínios. Ao realizar o CPT em grande escala (mais de 10 bilhões de tokens), começar nos pontos de verificação intermediários normalmente resulta em convergência mais rápida, melhor estabilidade de treinamento e aquisição de conhecimento de domínio mais eficaz. No entanto, para o CPT de pequena escala (menos de 10 bilhões de tokens), ou quando os recursos de seguimento de instruções precisam ser preservados, o ponto de verificação de produção pode ser mais apropriado, pois permite a adaptação do domínio, mantendo as habilidades de conversação do modelo.
Vários pontos de verificação intermediários são necessários para o CPT porque oferecem diferentes níveis de plasticidade do modelo que afetam a eficiência com que o modelo pode absorver novos conhecimentos de domínio. O ponto de verificação de produção passou por um extenso treinamento de segurança e alinhamento para seguir as instruções, o que o otimiza para uso conversacional geral, mas o torna resistente ao aprendizado de novos padrões específicos de domínio. Em outras palavras, foi reforçado durante o pós-treinamento. Em contraste, os pontos de verificação anteriores mantêm as características de pré-treinamento do modelo e não foram fortemente direcionados para comportamentos específicos, tornando-os mais plásticos e receptivos à adaptação do domínio.
Para obter a melhor eficiência de treinamento, vários pontos de verificação intermediários são fornecidos.
Quais pontos de verificação estão disponíveis?
Nova 1.0
A família Amazon Nova 1.0 tem três modelos (Micro, Lite, Pro), e para cada modelo há três pontos de verificação disponíveis.
-
PRÉ-TREINADO - [
nova-<micro/lite/pro>/pretraining-text-partial]: este é o ponto de verificação após a etapa de taxa de aprendizado constante do pré-treinamento do Amazon Nova, em que o modelo é treinado em trilhões de tokens de texto. -
TREINAMENTO INTERMEDIÁRIO - [
nova-<micro/lite/pro>/pretraining-text-full]: este é o ponto de verificação somente de texto após o término de todas as etapas do pré-treinamento e do treinamento intermediário do Amazon Nova, com trilhões de tokens de texto. Use-os se o modelo específico não deveria ter sido treinado com nenhum dado multimodal. -
TREINAMENTO INTERMEDIÁRIO - [
nova-<lite/pro>/pretraining-mm-full]: este é o ponto de verificação após o processamento de todas as etapas do pré-treinamento e do treinamento intermediário do Amazon Nova, incluindo dados multimodais, com trilhões de tokens. -
PÓS-TREINADO - [
nova-<micro/lite/pro>/prod]: este é o ponto de verificação final totalmente alinhado do modelo que passou por todas as etapas de pré-treinamento e pós-treinamento.
Nova 2.0
Existem três pontos de verificação do Amazon Nova Lite 2.0.
-
PRÉ-TREINADO - [
nova-lite-2/pretraining-text-RD]: este é o ponto de verificação após a taxa de aprendizado constante e as etapas de desaceleração do pré-treinamento do Amazon Nova, em que o modelo é treinado em trilhões de tokens. -
TREINAMENTO INTERMEDIÁRIO - [
nova-lite-2/pretraining-text-CE]: este ponto de verificação permite que volumes intermediários de dados não estruturados sejam introduzidos com uma taxa de aprendizado mais conservadora do que o pré-treinamento, absorvendo o conhecimento específico do domínio e evitando o esquecimento catastrófico. -
PÓS-TREINADO - [
nova-lite-2/prod]: este é o ponto de verificação final totalmente alinhado do modelo que passou por todas as etapas pertinentes e posteriores ao treinamento.
A tabela a seguir detalha as diferentes condições para o pré-treinamento e o treinamento intermediário.
Tipo de dado |
Executar |
Com ponto de verificação |
|---|---|---|
Dados brutos de domínio não estruturados em grande escala (documentos, logs, artigos, código etc.) |
Pré-treinamento contínuo |
Pré-treinado |
Dados brutos de domínio não estruturados em grande escala (documentos, logs, artigos, código etc.) |
Treinamento intermediário |
Pré-treinado |
Volumes menores de dados brutos não estruturados. Rastros de raciocínio estruturado/dados de CoT |
Treinamento intermediário |
Treinamento intermediário |
Demonstrações estruturadas (pares de entrada e saída de alta qualidade, instruções de tarefas selecionadas, diálogos de várias etapas) |
Ajuste fino completo |
Treinamento intermediário |
Demonstrações estruturadas (pares de entrada e saída de alta qualidade, instruções de tarefas selecionadas, diálogos de várias etapas) |
Ajuste fino com eficiência de parâmetros |
Pós-treinado |
Qual ponto de verificação usar?
Pontos de verificação parcialmente e totalmente pré-treinados apenas com texto geralmente convergem mais rápido e exigem menos etapas de treinamento para adaptação de domínio. No entanto, eles não têm ajuste de instruções e precisariam passar por etapas de pós-treinamento para serem capazes de realizar tarefas úteis e seguir instruções. Um ponto de verificação GA pode exigir mais etapas para se adaptar, mas fornece um ponto de partida mais seguro para experimentos em pequena escala e manterá algumas de suas capacidades pós-treinamento, mesmo após o treinamento do CPT.
Em geral, com grandes conjuntos de dados de treinamento (mais de 10 bilhões de tokens), comece com pontos de verificação parcialmente ou totalmente pré-treinados somente com texto para um treinamento mais eficiente e estável, pois a base de conhecimento do modelo será substancialmente modificada. Com conjuntos de dados pequenos (menos de 10 bilhões de tokens), use o ponto de verificação GA para preservar os recursos de seguimento de instruções e, ao mesmo tempo, adaptar-se ao domínio.
Como usar a combinação de dados para modelos 1.0 ou 2.0?
Ao realizar o CPT com dados de um novo domínio, é extremamente benéfico combinar os novos dados com alguns dos dados usados anteriormente na fase de pré-treinamento do modelo. Combinar dados antigos com dados de novos domínios soluciona dois problemas:
-
Esquecimento do controle: evita o esquecimento catastrófico, preservando as habilidades e o conhecimento existentes do modelo. Sem a combinação de dados, o treinamento exclusivo em dados de domínio restrito faz com que o modelo substitua os recursos gerais. Por exemplo, um modelo treinado somente em documentos legais pode perder a capacidade de codificar ou fazer cálculos. A combinação dos conjuntos de dados de domínio geral preserva essas habilidades gerais ao adquirir o novo domínio.
-
Estabilidade de otimização: mantém a estabilidade do treinamento servindo como uma âncora para as representações internas do modelo. Durante o CPT, os recursos aprendidos do modelo são modificados e a combinação de dados fornece gradientes de diversas fontes que orientam essa adaptação sem problemas. Sem isso, o treinamento em distribuições restritas pode causar instabilidade de gradiente, em que as representações do modelo mudam de forma significativa, levando a divergências de treinamento, picos de perda ou colapso dos recursos existentes. Este é o equilíbrio entre estabilidade e plasticidade: o modelo deve ser plástico o suficiente para aprender novos conhecimentos de domínio, mas estável o suficiente para não comprometer o que ele já sabe.
Recursos da combinação de dados do CTP do Nova
O acesso aos dados e pontos de verificação de pré-treinamento do Amazon Nova é uma das principais ofertas da personalização do CPT do Amazon Nova. A personalização do CPT do Amazon Nova permite a fácil combinação de dados de domínio com o corpus de pré-treinamento do Amazon Nova. Além disso, a proporção de amostragem das categorias de dados específicas do Amazon Nova (p. ex., código, cálculo, raciocínio etc.) pode ser alterada, e suas proporções podem ser controladas para complementar os dados do domínio. Isso permite o reforço de recursos que se alinham ao caso de uso e, ao mesmo tempo, adaptam o modelo ao domínio específico.
Busca pela proporção ideal da combinação
A proporção ideal de dados do Amazon Nova versus dados de domínio depende do domínio, da complexidade, do tamanho, da qualidade e da importância de manter os recursos gerais do conjunto de dados. Essa proporção deve ser descoberta por meio de experimentação. Abaixo, um framework experimental para decidir a quantidade de dados do Amazon Nova a serem combinados.
Selecione um subconjunto representativo de dados de domínio (p. ex., 5 bilhões de tokens) e mantenha isso constante em todas as execuções experimentais.
Execute experimentos de CPT em pequena escala variando apenas a quantidade de dados do Amazon Nova combinados em:
-
Nenhuma combinação: 100% domínio → 5B somente domínio (total de 5 bilhões)
-
Combinação leve: 90% domínio → 5B domínio + ~0,56B Amazon Nova (total de aproximadamente 5,56 bilhões)
-
Combinação média: 70% domínio → 5B domínio + ~2,14B Amazon Nova (total de aproximadamente 7,14 bilhões)
-
Combinação pesada: 50% domínio → 5B domínio +5B Amazon Nova (total de 10 bilhões)
Avalie cada ponto de verificação nas avaliações comparativas do domínio e do domínio geral. Avalie também o ponto de verificação inicial (ponto de verificação do Amazon Nova antes de qualquer treinamento).
-
A performance no domínio do cliente permanece praticamente constante em todas as execuções? Geralmente permanece, já que cada execução processou o mesmo número de tokens de domínio. Se a performance do domínio melhorar com mais combinação, os dados do Amazon Nova fornecerão uma regularização útil.
-
As pontuações gerais das avaliações comparativas melhoram à medida que a combinação aumenta?
-
O comportamento esperado é que os recursos gerais melhorem monotonicamente à medida que mais dados do Amazon Nova são adicionados.
-
Meça vários benchmarks gerais: MMLU (conhecimento geral), HumanEval (codificação), GSM8 K (matemática) ou benchmarks específicos de interesse.
-
-
Selecione a proporção de combinação que mantém a performance do domínio e, ao mesmo tempo, fornece recursos gerais aceitáveis para os casos de uso. Considere o custo adicional do treinamento com mais combinação de dados.
Depois que a proporção da combinação ideal for identificada, execute o CPT em grande escala usando o conjunto de dados de domínio completo com a proporção da combinação selecionada.
Limitações
O CPT atual é compatível apenas com dados de texto e não é compatível com nenhum conjunto de dados multimodais do cliente.