Pré-entraînement continu et mi-entraînement - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pré-entraînement continu et mi-entraînement

Note

Une documentation détaillée est fournie une fois que vous êtes abonné

Nova Forge CPT offre des fonctionnalités avancées allant au-delà du CPT standard, notamment l'accès à des points de contrôle intermédiaires et le mélange de données avec le corpus de pré-entraînement de Nova. Ces fonctionnalités permettent une adaptation plus efficace des domaines et une meilleure préservation des fonctionnalités générales du modèle.

Quels sont les points de contrôle intermédiaires et pourquoi sont-ils nécessaires ?

Les points de contrôle intermédiaires sont des instantanés du modèle Amazon Nova enregistrés à différentes étapes de la pré-formation, avant que le modèle n'atteigne son état final prêt pour la production. Au cours du développement du modèle, Amazon Nova est soumis à plusieurs phases de formation : pré-formation initiale avec un taux d'apprentissage constant, réduction du taux d'apprentissage, formation à l'extension du contexte et enfin formation à l'alignement et à la sécurité suivant les instructions. Pour le CPT, les points de contrôle intermédiaires sont souvent préférables au point de contrôle final Prod car ils sont plus plastiques et réceptifs à l'adaptation au domaine. Le point de contrôle Prod a fait l'objet d'une formation approfondie sur l'alignement et la sécurité, qui optimise le modèle pour une utilisation conversationnelle générale, mais peut le rendre résistant à l'apprentissage de nouveaux modèles spécifiques à un domaine pendant le CPT. En revanche, les points de contrôle contenant uniquement du texte partiellement ou entièrement préentraîné conservent les caractéristiques du modèle avant l'entraînement. Ils n'ont pas été fortement orientés vers des comportements spécifiques, ce qui en fait des points de départ plus efficaces pour l'adaptation au domaine. Lorsque vous effectuez un CPT à grande échelle (>10 milliards de jetons), le fait de partir de points de contrôle intermédiaires se traduit généralement par une convergence plus rapide, une meilleure stabilité de l'entraînement et une acquisition plus efficace des connaissances du domaine. Toutefois, pour les CPT à petite échelle (<10 milliards de jetons), ou lorsque les capacités de suivi des instructions doivent être préservées, le point de contrôle Prod peut être plus approprié car il permet l'adaptation du domaine tout en préservant les capacités conversationnelles du modèle.

Plusieurs points de contrôle intermédiaires sont nécessaires pour le CPT car ils offrent différents niveaux de plasticité du modèle qui affectent l'efficacité avec laquelle le modèle peut absorber les nouvelles connaissances du domaine. Le point de contrôle final du Prod a fait l'objet d'une formation approfondie sur l'alignement et la sécurité, qui l'optimise pour une utilisation conversationnelle générale, mais le rend résistant à l'apprentissage de nouveaux modèles spécifiques au domaine. En d'autres termes, il a été renforcé après l'entraînement. En revanche, les points de contrôle antérieurs conservent les caractéristiques du modèle avant l'entraînement et n'ont pas été fortement orientés vers des comportements spécifiques, ce qui les rend plus souples et plus réceptifs à l'adaptation au domaine.

Pour optimiser l'efficacité de l'entraînement, plusieurs points de contrôle intermédiaires sont fournis.

Quels sont les points de contrôle disponibles ?

Nova 1.0

La famille Amazon Nova 1.0 comprend trois modèles (Micro, Lite, Pro) et trois points de contrôle sont disponibles pour chaque modèle.

  • PRÉ-ENTRAÎNÉ - [nova-<micro/lite/pro>/pretraining-text-partial] : Il s'agit du point de contrôle après la phase de taux d'apprentissage constant de la pré-formation d'Amazon Nova, au cours de laquelle le modèle est entraîné sur des milliards de jetons de texte.

  • FORMATION INTERMÉDIAIRE - [nova-<micro/lite/pro>/pretraining-text-full] : Il s'agit du point de contrôle réservé au texte une fois toutes les étapes de pré-formation et de mi-formation d'Amazon Nova terminées avec des milliards de jetons de texte. Utilisez-les si le modèle n'aurait spécifiquement dû détecter aucune donnée multimodale.

  • FORMATION INTERMÉDIAIRE - [nova-<lite/pro>/pretraining-mm-full] : Il s'agit du point de contrôle une fois que toutes les étapes de la formation préalable et intermédiaire d'Amazon Nova, y compris les données multimodales, ont été traitées avec des milliards de jetons.

  • APRÈS ENTRAÎNEMENT - [nova-<micro/lite/pro>/prod] : Il s'agit du point de contrôle final entièrement aligné du modèle qui a suivi toutes les étapes avant et après l'entraînement.

Nova 2.0

Il existe trois points de contrôle Amazon Nova Lite 2.0.

  • PRÉ-ENTRAÎNÉ - [nova-lite-2/pretraining-text-RD] : Il s'agit du point de contrôle après le taux d'apprentissage constant et les étapes de réduction progressive de la pré-formation d'Amazon Nova, au cours desquelles le modèle est entraîné avec des milliards de jetons.

  • FORMATION INTERMÉDIAIRE - [nova-lite-2/pretraining-text-CE] : Ce point de contrôle permet d'introduire des volumes intermédiaires de données non structurées avec un taux d'apprentissage plus modéré qu'avant la formation, absorbant ainsi des connaissances spécifiques à un domaine tout en évitant un oubli catastrophique.

  • APRÈS ENTRAÎNEMENT - [nova-lite-2/prod] : Il s'agit du point de contrôle final entièrement aligné du modèle qui a suivi toutes les étapes pertinentes et postérieures à la formation.

Le tableau suivant décrit les différentes conditions avant et pendant l'entraînement.

Type de données

Exécuter

Avec Checkpoint

Données de domaine brutes non structurées à grande échelle (documents, journaux, articles, code, etc.)

Formation préalable continue

Pré-formé

Données de domaine brutes non structurées à grande échelle (documents, journaux, articles, code, etc.)

À mi-entraînement

Pré-formé

Petits volumes de données brutes non structurées. Traces de raisonnement structurées/données CoT

À mi-entraînement

Entraîné à mi-parcours

Démonstrations structurées (paires entrées-sorties de haute qualité, instructions de tâches sélectionnées, dialogues à plusieurs tours)

Réglage complet

Entraîné à mi-parcours

Démonstrations structurées (paires entrées-sorties de haute qualité, instructions de tâches sélectionnées, dialogues à plusieurs tours)

Réglage précis efficace des paramètres

Après avoir suivi une formation

Quel point de contrôle utiliser ?

Les points de contrôle partiellement pré-entraînés uniquement en texte et entièrement pré-entraînés uniquement en texte convergent généralement plus rapidement et nécessitent moins d'étapes de formation pour l'adaptation au domaine. Cependant, les instructions ne sont pas ajustées et devraient suivre des étapes après la formation pour être en mesure d'effectuer des tâches utiles et de suivre les instructions. Le point de contrôle GA peut nécessiter plus d'étapes pour s'adapter, mais constitue un point de départ plus sûr pour les expériences à petite échelle et conservera certaines de ses capacités après la formation, même après la formation du CPT.

En général, avec de grands ensembles de données d'entraînement (>10 milliards de jetons), commencez par des points de contrôle partiellement préentraînés uniquement en texte ou entièrement préentraînés uniquement en texte pour une formation plus efficace et plus stable, car la base de connaissances du modèle sera considérablement modifiée. Avec de petits ensembles de données (<10 Go de jetons), utilisez le point de contrôle GA pour préserver les capacités de suivi des instructions tout en vous adaptant au domaine.

Comment utiliser le mixage de données pour les modèles 1.0 ou 2.0 ?

Lors de l'exécution du CPT avec de nouvelles données de domaine, il est très avantageux de mélanger les nouvelles données avec certaines des données utilisées précédemment lors de la phase de pré-apprentissage du modèle. Le mélange d'anciennes données avec de nouvelles données de domaine permet de résoudre deux problèmes :

  • Contrôle de l'oubli : prévient l'oubli catastrophique en préservant les compétences et les connaissances existantes sur le modèle. Sans mélange de données, l'entraînement exclusivement sur des données de domaine restreint entraîne le remplacement des capacités générales du modèle. Par exemple, un modèle formé uniquement sur des documents juridiques risque de perdre sa capacité à coder ou à effectuer des calculs. Le mélange des ensembles de données du domaine général préserve ces compétences générales lors de l'acquisition du nouveau domaine.

  • Stabilité d'optimisation : Maintient la stabilité de l'entraînement en ancrant les représentations internes du modèle. Au cours du CPT, les caractéristiques apprises du modèle sont modifiées et le mélange de données fournit des dégradés provenant de diverses sources qui guident cette adaptation en douceur. Sans cela, l'entraînement sur des distributions étroites peut provoquer une instabilité du gradient, les représentations du modèle étant modifiées de manière trop drastique, ce qui entraîne une divergence d'apprentissage, des pics de pertes ou un effondrement des capacités existantes. Il s'agit du compromis entre stabilité et plasticité : le modèle doit être suffisamment souple pour acquérir de nouvelles connaissances dans le domaine, mais suffisamment stable pour ne pas altérer ce qu'il sait déjà.

Capacités de mixage de données Nova CPT

L'accès aux données de pré-formation et aux points de contrôle d'Amazon Nova est l'une des principales offres de personnalisation d'Amazon Nova CPT. La personnalisation d'Amazon Nova CPT permet de mélanger facilement les données de domaine avec le corpus de pré-formation d'Amazon Nova. En outre, le taux d'échantillonnage des catégories de données spécifiques d'Amazon Nova (par exemple, code, mathématiques, raisonnement, etc.) peut être modifié et leurs proportions contrôlées pour compléter les données du domaine. Cela permet de renforcer les fonctionnalités qui correspondent au cas d'utilisation tout en adaptant le modèle au domaine spécifique.

Trouver le rapport de mélange optimal

Le ratio optimal entre les données Amazon Nova et les données de domaine dépend du domaine, de la complexité, de la taille, de la qualité du jeu de données et de l'importance de maintenir les fonctionnalités générales. Ce ratio doit être découvert par l'expérimentation. Voici un cadre d'expérimentation permettant de décider de la quantité de données Amazon Nova à mélanger.

Sélectionnez un sous-ensemble représentatif de données de domaine (par exemple, 5 milliards de jetons) et maintenez-le constant pendant tous les essais expérimentaux.

Exécutez des expériences CPT à petite échelle en faisant varier uniquement la quantité de données Amazon Nova mélangées dans :

  • Pas de mixage : 100 % domaine → domaine 5 B uniquement (total 5 B)

  • Mélange de lumière : domaine 90 % → domaine 5B + ~0,56 B Amazon Nova (total ~5,56 B)

  • Mixage moyen : 70 % de domaine → domaine 5 B + ~2,14 B Amazon Nova (total ~7,14 B au total)

  • Mixage intensif : 50 % de domaine → domaine 5 B + 5 Go Amazon Nova (total 10 B)

Évaluez chaque point de contrôle sur les benchmarks internes et généraux du domaine. Évaluez également le point de départ (point de contrôle Amazon Nova avant toute formation).

  • Les performances du domaine client restent-elles à peu près constantes d'un cycle à l'autre ? C'est généralement le cas, car chaque exécution a généré le même nombre de jetons de domaine. Si les performances du domaine s'améliorent grâce à un plus grand mixage, les données Amazon Nova fournissent une régularisation utile.

  • Les scores de référence généraux s'améliorent-ils à mesure que le mixage augmente ?

    • Le comportement attendu est que les fonctionnalités générales devraient s'améliorer de manière monotone à mesure que de nouvelles données Amazon Nova sont ajoutées.

    • Mesurez plusieurs repères généraux : MMLU (connaissances générales), HumanEval (codage), GSM8 K (mathématiques) ou repères spécifiques qui vous intéressent.

  • Sélectionnez le ratio de mixage qui permet de maintenir les performances du domaine tout en offrant des fonctionnalités générales acceptables pour les cas d'utilisation. Tenez compte du coût supplémentaire de la formation en mélangeant davantage les données.

Une fois que le rapport de mélange optimal a été identifié, exécutez le CPT à grande échelle en utilisant l'ensemble de données de domaine complet avec le rapport de mélange sélectionné.

Limitations

Le CPT actuel ne prend en charge que les données texte et ne prend en charge aucun ensemble de données multimodaux des clients.