CPT en Nova 2.0

Amazon Nova Lite 2.0 es un modelo de razonamiento entrenado en conjuntos de datos más grandes y diversos que Nova Lite 1.0. A pesar de ser un modelo más grande, Nova Lite 2.0 ofrece inferencias más rápidas que Nova Lite 1.0 a la vez que ofrece capacidades de razonamiento mejoradas, contextos más extensos y un rendimiento multilingüe mejorado.

El CPT de Nova 2.0 le permite ampliar estas capacidades avanzadas con los datos de su dominio específico, lo que le permite al modelo desarrollar una amplia experiencia en áreas especializadas y, al mismo tiempo, mantener sus excelentes capacidades analíticas y de razonamiento.

Preparación de datos para el CPT on 2.0

Requisitos del formato de los datos

Los conjuntos de datos de entrenamiento y validación deben ser archivos JSONL con el formato que se muestra a continuación, donde cada línea contiene un objeto JSON que represente una conversación con los campos y la estructura necesarios. A continuación se muestra un ejemplo:


{"text": "AWS stands for Amazon Web Services"}
{"text": "Amazon SageMaker is a fully managed machine learning service"}
{"text": "Amazon Bedrock is a fully managed service for foundation models"}

Las entradas de texto deben contener contenido fluido y de alta calidad que represente el dominio de destino.

Compruebe que los datos se puedan convertir al formato Arrow. Usa el script de Python que aparece a continuación como ayuda. Asegúrese de utilizar como mínimo la datasets==2.18.0 versión:


from datasets import load_dataset, load_from_disk
from pathlib import Path

input_path = Path("<Your jsonl file>")
output_path = Path("<Your output directory>")

dataset = load_dataset("json", data_files=str(input_path), split="train")
dataset.save_to_disk(str(output_path), max_shard_size="1GB")

try:
  test_dataset = datasets.load_from_disk(output_dir)
  print(f"Dataset loaded successfully ✅! Contains {len(test_dataset)} samples")
except Exception as e:
  print(e)

Debe imprimir el mismo número de líneas que había en el archivo JSONL.

Cuando utilice la mezcla de datos, ejecute el primer trabajo con. max_steps=2 Esto ayudará a crear optimizaciones en el clúster para el acceso a los datos y a validar que todas las mezclas de datos estén disponibles.

¿Cómo preparar los datos para la CPT

Los datos de formación son el factor determinante más importante para el éxito de la formación previa continua. Si bien los datos de la CPT suelen describirse como «no etiquetados», la realidad es mucho más matizada. La forma en que se estructuran, formatean y presentan los datos determina si el modelo adquirirá los conocimientos y las habilidades necesarios para el caso de uso empresarial.

Preparación de conjuntos de datos empresariales estructurados para la CPT

Este es un desafío común para las empresas y organizaciones que crean modelos básicos especializados en su dominio. La mayoría de las empresas poseen amplios repositorios de datos estructurados: catálogos de productos, perfiles de usuario, registros de transacciones, envíos de formularios, llamadas a la API y metadatos operativos. A primera vista, su aspecto es muy diferente del texto web no estructurado que se suele utilizar en la formación previa estándar.

Para aprender de manera efectiva de los datos empresariales estructurados, piense detenidamente en las tareas posteriores y diseñe la presentación de los datos para obligar al modelo a aprender las relaciones predictivas correctas.

Para aprovechar todo el potencial de la formación previa continua, considere lo siguiente:

Qué tareas debe realizar el modelo en el momento de la inferencia
¿Qué información está presente en los datos sin procesar
¿Cómo estructurar esos datos para que el modelo aprenda a extraer y manipular la información correctamente

El simple hecho de incluir datos estructurados en el entrenamiento no enseñará al modelo a razonar al respecto. Diseñe activamente la presentación de los datos para guiar lo que aprende el modelo.

En las siguientes secciones, se analiza la bibliografía que demuestra la importancia del aumento de datos y se proporcionan ejemplos de estrategias de ampliación de datos empresariales estructurados que aportarán ideas útiles sobre cómo tratar y organizar los conjuntos de datos empresariales para la CPT.

Datos estructurados para la CPT en la bibliografía

La CPT puede incluir datos de dominio en el modelo, pero a menudo no logra que esos datos sean recuperables y manipulables cuando los insumos o las tareas cambian. Los experimentos controlados muestran que, si no se realiza un aumento de la diversidad durante el preentrenamiento, los modelos memorizan datos de forma frágil y que resulta difícil extraerlos incluso después de ajustar las instrucciones posteriormente, por lo que recomiendan introducir las instrucciones en forma de señales al principio del entrenamiento. En el caso de los datos semiestructurados, la serialización aleatoria y otros aumentos reducen el sobreajuste del esquema, razón por la cual la CPT debería estar intercalada con tareas de tipo instructivo en lugar de ejecutarlas primero y luego las IFT. Un trabajo centrado en las finanzas revela además que la combinación conjunta de los datos de la CPT y de las instrucciones por lotes mejora la generalización y reduce el olvido en comparación con la receta secuencial. El informe técnico de Qwen sigue el mismo patrón al integrar datos de instrucción de alta calidad en el propio preentrenamiento, lo que impulsa el aprendizaje contextual y preserva el seguimiento de la instrucción al tiempo que se adquiere nuevos conocimientos del dominio.

El aumento de datos para corpus semiestructurados es un factor clave. La CPT, basada en grafos sintéticos, amplía los conjuntos de dominios pequeños hasta convertirlos en corpus vinculados entre entidades que enseñan de forma explícita las relaciones y los compuestos mediante la recuperación en el momento de la inferencia. La CPT conjunta, junto con la combinación de clases, supera a las canalizaciones secuenciales en finanzas y, al equilibrar el dominio con datos generales, se reduce la degradación de las habilidades generales. La CPT a gran escala también puede conservar una amplia capacidad e incluso permitir compensaciones a través de la fusión de modelos, pero sigue considerando que el ajuste de las instrucciones es el siguiente paso esencial, lo que refuerza el valor de introducir señales de instrucción durante la CPT.

Inyectar diversidad mediante la aleatorización y la mezcla

Una estrategia general que ayuda a enseñar modelos de manera eficaz a partir de los conjuntos de datos estructurados y semiestructurados consiste en mezclar el orden de los campos de los conjuntos de datos e incluso omitir algunas claves de forma aleatoria.

Al mezclar los campos, el modelo debe leer el significado de cada valor en lugar de dónde aparece y aprender las relaciones entre todos los campos. Por ejemplo, en el caso de un videojuego publicado en la tienda de Amazon, cuando «Título», «Plataforma», «Precio», «Estado» y «Edición» aparecen en diferentes combinaciones, el modelo no puede confiar en que «el tercer espacio es la plataforma»; debe vincular las etiquetas a los valores y aprender las relaciones bilaterales entre los atributos: título, plataforma, plataforma, precio, condición, precio. Por lo tanto, puede, por ejemplo, deducir una plataforma probable a partir del nombre de un juego y un precio observado, o estimar un rango de precios plausible dados un título y una plataforma.

Si se dejan caer las teclas de forma aleatoria durante la serialización, se produce como si se eliminaran las características: se evita la adaptación simultánea en cualquier campo y se obliga al modelo a recuperar la información que falta a partir de las pruebas restantes. Si no aparece la palabra «Plataforma», el modelo debe seleccionarla de la cadena de título o del texto de compatibilidad; si «Precio» está oculta, debe separar la plataforma, la edición y el estado. Esto genera simetría (A→B y B→A), robustez ante listados desordenados del mundo real e invariancia del esquema cuando faltan campos, se les cambia el nombre o se reordenan.

Un ejemplo de estilo de compra lo concreta. Serializa el mismo artículo de varias formas: «Título: «Elden Ring» | Plataforma: PlayStation 5 | Estado: usado, como nuevo | Precio: 34,99$» y una permutación como «Precio: 34,99$ | Título: 'Elden Ring' | Estado: usado, como nuevo | Plataforma: 5» y, en algunos pases, coloca «Plataforma» y deja «Compatible con» en la descripción. PlayStation PS5 Entrene objetivos complementarios, como predecir la plataforma a partir de {title, price} y predecir un segmento de precios a partir de {title, platform}. Como el orden e incluso la presencia de las claves varían, la única estrategia estable es aprender las verdaderas relaciones entre los atributos en lugar de memorizar una plantilla.

La forma en que se presentan los datos es importante

LLMs aprenden prediciendo el siguiente token a partir de lo que ya han visto. Por lo tanto, el orden de los campos y eventos que se muestran durante el entrenamiento decide lo que el modelo puede aprender. Si el formato de entrenamiento coincide con la tarea real, la pérdida recae en las fichas de decisión exactas. Si los campos se agrupan sin estructura, el modelo aprende los atajos o memoriza su popularidad y, después, no lo consigue cuando se le pide que elija entre las opciones.

Muestre primero la situación, después las opciones y, por último, la decisión. Si el modelo también debe conocer los resultados o las explicaciones, colóquelos después de la decisión.

Embalaje de muestras para CPT

¿Qué es el embalaje?

Simplemente significa llenar cada ventana de secuencia de los datos de entrenamiento con varios ejemplos completos para que la ventana esté llena de fichas reales, no de relleno.

¿Por qué importa?

Durante el entrenamiento, se establece una longitud máxima de contexto, por ejemplo, 8.192 fichas. Los lotes tienen la forma de [tamaño del lote × longitud del contexto]. Si un ejemplo de entrenamiento es más corto que la longitud del contexto, las posiciones restantes se rellenan. El relleno sigue afectando a los núcleos de atención y MLP, incluso si se oculta la pérdida, por lo que se paga el cálculo por los símbolos que no transmiten ninguna señal de aprendizaje.

¿Cómo hacer las maletas?

Para empaquetar varias muestras, concatene varias muestras de entrenamiento con un [DOC] separador en el medio (observe el espacio antes y después del [DOC]) de manera que la longitud total de las muestras esté por debajo de la longitud de contexto deseada.

Un ejemplo de documento empaquetado tendría el siguiente aspecto:


{"text": "training sample 1 [DOC] training sample 2 [DOC] training sample 3"}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

CPT sobre Nova 1.0

Refinamiento supervisado (SFT)