Formación continua previa y a mitad de la formación - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formación continua previa y a mitad de la formación

nota

La documentación detallada se proporciona una vez suscrito

El CPT de Nova Forge ofrece capacidades avanzadas que van más allá del CPT estándar, como el acceso a puntos de control intermedios y la combinación de datos con el corpus de formación previa de Nova. Estas características permiten una adaptación más eficiente del dominio y una mejor conservación de las capacidades generales del modelo.

¿Qué son los puntos de control intermedios y por qué son necesarios?

Los puntos de control intermedios son instantáneas del modelo Amazon Nova guardadas en diferentes etapas del entrenamiento previo, antes de que el modelo alcance su estado final listo para la producción. Durante el desarrollo del modelo, Amazon Nova se somete a varias fases de formación: formación previa inicial con un ritmo de aprendizaje constante, reducción del ritmo de aprendizaje, formación de extensión del contexto y, por último, formación de alineación y seguridad basada en las instrucciones. Para la CPT, los puntos de control intermedios suelen ser preferibles al último puesto de control Prod porque son más plásticos y receptivos a la adaptación del dominio. El punto de control de Prod ha recibido una amplia formación sobre alineación y seguridad siguiendo las instrucciones, lo que optimiza el modelo para un uso conversacional general, pero puede hacer que se resista a aprender nuevos patrones específicos de un dominio durante la CPT. Por el contrario, los puntos de control que solo contienen texto previamente entrenado parcial o totalmente conservan las características del modelo antes del entrenamiento. No se han orientado demasiado hacia comportamientos específicos, lo que los convierte en puntos de partida más eficientes para la adaptación del dominio. Al realizar un CPT a gran escala (más de 10 000 millones de fichas), partir de puntos de control intermedios suele dar como resultado una convergencia más rápida, una mejor estabilidad del entrenamiento y una adquisición más eficaz de los conocimientos del dominio. Sin embargo, para el CPT a pequeña escala (menos de 10 000 millones de fichas), o cuando sea necesario conservar las capacidades de seguimiento de las instrucciones, el punto de control Prod puede ser más apropiado, ya que permite la adaptación del dominio y, al mismo tiempo, mantiene las capacidades de conversación del modelo.

La CPT necesita varios puntos de control intermedios, ya que ofrecen diferentes niveles de plasticidad del modelo, lo que afecta a la eficiencia con la que el modelo puede absorber nuevos conocimientos del dominio. El último punto de control de Prod ha recibido una amplia formación sobre alineación y seguridad, siguiendo las instrucciones, que lo optimiza para un uso conversacional general, pero lo hace resistente a aprender nuevos patrones específicos de cada dominio. En otras palabras, se ha ido fortaleciendo a través del entrenamiento posterior. Por el contrario, los puntos de control anteriores conservan las características previas al entrenamiento del modelo y no se han orientado demasiado hacia comportamientos específicos, lo que los hace más plásticos y receptivos a la adaptación del dominio.

Para lograr la máxima eficiencia en la formación, se proporcionan varios puntos de control intermedios.

¿Qué puntos de control están disponibles?

Nova 1.0

La familia Amazon Nova 1.0 tiene tres modelos (Micro, Lite y Pro) y para cada modelo hay tres puntos de control disponibles.

  • PREENTRENADO - [nova-<micro/lite/pro>/pretraining-text-partial]: Este es el punto de control después de la etapa de tasa de aprendizaje constante del entrenamiento previo de Amazon Nova, en la que el modelo se entrena con billones de fichas de texto.

  • ENTRENADO A MITAD DE CAMINO - [nova-<micro/lite/pro>/pretraining-text-full]: Este es el punto de control solo de texto una vez finalizadas todas las etapas del entrenamiento previo y intermedio de Amazon Nova con billones de fichas de texto. Úselos si el modelo específico no debería haber visto ningún dato multimodal.

  • ENTRENADO A MITAD DE CAMINO - [nova-<lite/pro>/pretraining-mm-full]: Este es el punto de control después de que se hayan procesado todas las etapas del entrenamiento previo y medio de Amazon Nova, incluidos los datos multimodales, con billones de fichas.

  • Tras la formación: [nova-<micro/lite/pro>/prod]: Se trata del punto de control final totalmente alineado del modelo, que ha pasado por todas las etapas previas y posteriores a la formación.

Nova 2.0

Hay tres puntos de control de Amazon Nova Lite 2.0.

  • PREENTRENADO - [nova-lite-2/pretraining-text-RD]: Este es el punto de control tras el ritmo de aprendizaje constante y las etapas de reducción del entrenamiento previo de Amazon Nova, en las que el modelo se entrena con billones de fichas.

  • Capacitación intermedia: [nova-lite-2/pretraining-text-CE]: Este punto de control permite introducir volúmenes intermedios de datos no estructurados con un ritmo de aprendizaje más conservador que antes del entrenamiento, lo que absorbe conocimientos específicos del dominio y evita un olvido catastrófico.

  • Después de la formación: [nova-lite-2/prod]: Este es el punto de control final totalmente alineado del modelo, que ha seguido todos los pasos pertinentes y posteriores a la formación.

La siguiente tabla detalla las diferentes condiciones para el entrenamiento previo y medio.

Tipo de datos

Realización

Con Checkpoint

Datos de dominio sin procesar no estructurados a gran escala (documentos, registros, artículos, código, etc.)

Capacitación previa continua

Preformado

Datos de dominio sin procesar no estructurados a gran escala (documentos, registros, artículos, código, etc.)

Entrenamiento a mitad

Preentrenados

Volúmenes más pequeños de datos sin procesar no estructurados. Rastros de razonamiento estructurado y datos de CoT

A mitad del entrenamiento

Entrenado a mitad

Demostraciones estructuradas (pares de entradas y salidas de alta calidad, instrucciones de tareas seleccionadas, diálogos de varias vueltas)

Ajuste completo

Entrenado a medio camino

Demostraciones estructuradas (pares de entradas y salidas de alta calidad, instrucciones de tareas seleccionadas, diálogos de varias vueltas)

Ajuste preciso y eficiente de los parámetros

Capacitado posteriormente

¿Qué punto de control usar?

Los puntos de control de solo texto previamente entrenado parcialmente y solo texto completamente preentrenado suelen converger más rápido y requieren menos pasos de entrenamiento para adaptarse al dominio. Sin embargo, no tienen que ajustar las instrucciones y deberían seguir los pasos posteriores a la formación para poder realizar tareas útiles y seguir las instrucciones. Es posible que el puesto de control de Georgia requiera más pasos para adaptarse, pero proporciona un punto de partida más seguro para experimentos a pequeña escala y mantendrá algunas de sus capacidades posteriores al entrenamiento incluso después del entrenamiento del CPT.

Por lo general, si se trata de conjuntos de datos de entrenamiento de gran tamaño (más de 10 000 millones de fichas), se debe empezar por puntos de control que contengan solo texto previamente entrenado parcialmente o solo texto previamente entrenado para obtener un entrenamiento más eficiente y estable, ya que la base de conocimientos del modelo se modificará sustancialmente. Con conjuntos de datos pequeños (menos de 10 000 millones de fichas), utilice el punto de control de GA para conservar la capacidad de seguir las instrucciones y, al mismo tiempo, adaptarse al dominio.

¿Cómo utilizar la combinación de datos para los modelos 1.0 o 2.0?

Al realizar la CPT con datos de un dominio nuevo, resulta muy beneficioso mezclar los nuevos datos con algunos de los datos utilizados anteriormente en la fase previa al entrenamiento del modelo. La mezcla de datos antiguos con datos de dominio nuevos resuelve dos problemas:

  • Olvidar el control: evita un olvido catastrófico al preservar las habilidades y los conocimientos existentes sobre el modelo. Si no se combinan los datos, el entrenamiento exclusivo con datos de dominio limitado hace que el modelo sobrescriba las capacidades generales. Por ejemplo, un modelo entrenado únicamente con documentos legales podría perder su capacidad para codificar o realizar operaciones matemáticas. Al mezclar los conjuntos de datos del dominio general, se conservan estas habilidades generales al adquirir el nuevo dominio.

  • Estabilidad de optimización: mantiene la estabilidad del entrenamiento al anclar las representaciones internas del modelo. Durante la CPT, las características aprendidas del modelo se modifican y la mezcla de datos proporciona gradientes de diversas fuentes que guían esta adaptación sin problemas. Sin ella, el entrenamiento en distribuciones estrechas puede provocar inestabilidad en el gradiente, ya que las representaciones del modelo se desplazan de forma demasiado drástica, lo que provoca divergencias en el entrenamiento, picos de pérdida o colapso de las capacidades existentes. Esta es la disyuntiva entre estabilidad y plasticidad: el modelo debe ser lo suficientemente plástico como para aprender nuevos conocimientos, pero lo suficientemente estable como para no romper lo que ya conoce.

Capacidades de mezcla de datos de Nova CPT

El acceso a los datos y puntos de control previos al entrenamiento de Amazon Nova es una de las principales ofertas de personalización del CPT de Amazon Nova. La personalización del CPT de Amazon Nova permite mezclar fácilmente los datos de dominio con el corpus de formación previa de Amazon Nova. Además, la proporción de muestreo de las categorías de datos específicas de Amazon Nova (por ejemplo, código, matemáticas, razonamiento, etc.) se puede cambiar y sus proporciones se pueden controlar para complementar los datos de dominio. Esto permite reforzar las capacidades para adaptarlas al caso de uso y, al mismo tiempo, adaptar el modelo al dominio específico.

Encontrar la proporción de mezcla óptima

La proporción óptima entre los datos de Amazon Nova y los datos de dominio depende del dominio, la complejidad, el tamaño y la calidad del conjunto de datos y de la importancia de mantener las capacidades generales. Esta relación debe descubrirse mediante la experimentación. El siguiente es un marco experimental para decidir la cantidad de datos de Amazon Nova que se van a mezclar.

Seleccione un subconjunto representativo de datos de dominio (por ejemplo, 5.000 millones de fichas) y manténgalo constante en todas las ejecuciones experimentales.

Realice experimentos de CPT a pequeña escala variando solo la cantidad de datos de Amazon Nova mezclados en:

  • Sin mezcla: dominio 100% → dominio de 5 B únicamente (5 B en total)

  • Mezcla de luz: 90% de dominio → dominio 5B + ~ 0,56 B de Amazon Nova (total ~ 5,56 B)

  • Mezcla media: 70% de dominio → 5 B de dominio + ~ 2,14 B de Amazon Nova (total ~ 7,14 B)

  • Mezcla intensa: 50% de dominio → 5 B de dominio + 5 B de Amazon Nova (10 B en total)

Evalúe cada punto de control en función de los puntos de referencia internos y generales del dominio. Evalúe también el punto de control inicial (punto de control de Amazon Nova antes de cualquier entrenamiento).

  • ¿El rendimiento del dominio del cliente se mantiene prácticamente constante en todas las ejecuciones? Por lo general, debería ser así, ya que en cada ejecución se utilizó el mismo número de fichas de dominio. Si el rendimiento del dominio mejora con una mayor mezcla, los datos de Amazon Nova proporcionan una regularización útil.

  • ¿Mejoran las puntuaciones de referencia generales a medida que aumenta la mezcla?

    • El comportamiento esperado es que las capacidades generales mejoren monótonamente a medida que se agreguen más datos de Amazon Nova.

    • Mida varios puntos de referencia generales: MMLU (conocimientos generales), HumanEval (codificación), GSM8 K (matemáticas) o puntos de referencia específicos de interés.

  • Seleccione la proporción de mezcla que mantenga el rendimiento del dominio y, al mismo tiempo, ofrezca capacidades generales aceptables para los casos de uso. Tenga en cuenta el costo adicional de la capacitación y combine más datos.

Una vez que se haya identificado la proporción de mezcla óptima, ejecute la CPT a gran escala utilizando el conjunto de datos de dominios completo con la proporción de mezcla seleccionada.

Limitaciones

El CPT actual solo admite datos de texto y no admite ningún conjunto de datos multimodales del cliente.