Tâches d’entraînement SageMaker AI - Amazon Nova

Tâches d’entraînement SageMaker AI

La personnalisation des modèles Amazon Nova avec Amazon SageMaker Training Jobs suit un flux de travail structuré conçu pour simplifier le processus complexe de peaufinage des grands modèles de langage. Ce flux de travail de bout en bout englobe l’entraînement, l’évaluation et le déploiement des modèles pour l’inférence. Pour plus d’informations, consultez Personnalisation des modèles Amazon Nova dans le Guide du développeur Amazon SageMaker AI.

Avec Amazon SageMaker AI, vous pouvez optimiser les modèles de fondation pré-formés existants, tels qu’Amazon Nova, sans avoir à entraîner vos propres modèles à partir de zéro. Les sections suivantes détaillent les options de peaufinage dans SageMaker AI lorsque vous travaillez avec des modèles de fondation Amazon Nova.

Peaufinage complet

Le peaufinage complet modifie tous les paramètres du modèle de fondation afin d’optimiser ses performances pour des tâches ou des domaines spécifiques. Cette approche globale met à jour l’ensemble de l’architecture du modèle, permettant des adaptations plus approfondies que les méthodes basées sur des adaptateurs. Pour plus d’informations, consultez Peaufinage des modèles de fondation.

Fonctionnement du peaufinage complet

Lors du peaufinage complet, le modèle apprend en mettant à jour tous ses paramètres à l’aide de vos données d’entraînement. Ce processus de peaufinage complet :

  • Permet au modèle de développer des connaissances spécialisées pour votre domaine.

  • Permet d’apporter des modifications importantes aux représentations sous-jacentes du modèle.

  • Nécessite davantage de ressources informatiques que les méthodes basées sur des adaptateurs, mais permet d’obtenir de meilleures performances pour des tâches spécifiques.

Quand choisir le peaufinage complet

Nous recommandons d’utiliser le peaufinage complet dans les cas suivants :

  • Lorsque le peaufinage LoRA PEFT n’atteint pas les niveaux de performance souhaités.

  • Pour les domaines spécialisés qui nécessitent une expertise approfondie (tels que les domaines médical, juridique ou technique).

  • Lorsque vous disposez de grands jeux de données de haute qualité pour votre cas d’utilisation.

  • Lorsque les exigences de précision l’emportent sur les considérations de coût informatique.

  • Pour les applications qui nécessitent un écart important par rapport au comportement du modèle de base.

Peaufinage de l’adaptateur à faible rang

La méthode la plus efficace et la plus rentable pour améliorer les performances du modèle de base consiste à utiliser le peaufinage efficace des paramètres de l’adaptateur à faible rang (LoRA PEFT). Le principe sous-jacent du LoRA PEFT est que seul un petit nombre de poids supplémentaires doit être mis à jour pour l’ajuster à de nouvelles tâches ou à de nouveaux domaines.

Le LoRA PEFT optimise efficacement les modèles de fondation en introduisant des matrices de poids entraînables de rang faible dans des couches de modèle spécifiques, ce qui réduit le nombre de paramètres entraînables tout en conservant la qualité du modèle. Un adaptateur LoRA PEFT améliore le modèle de fondation en incorporant des couches d’adaptateur légères qui modifient les poids du modèle pendant l’inférence, tout en conservant intacts les paramètres du modèle d’origine. Cette approche est également considérée comme l’une des techniques de peaufinage les plus rentables. Pour plus d’informations, consultez Optimiser les modèles avec des composants d’inférence adaptateur.

Quand choisir LoRA PEFT

Nous recommandons d’utiliser LoRA PEFT dans les scénarios suivants :

  • Il est généralement conseillé de commencer par LoRA PEFT plutôt que par d’autres méthodes de peaufinage, car il s’agit d’une procédure d’entraînement rapide.

  • LoRA PEFT est efficace dans les cas où les performances du modèle de base sont déjà satisfaisantes. Dans ce cas, l’objectif de LoRA PEFT est d’améliorer ses capacités dans plusieurs tâches connexes, telles que la synthétisation de texte ou la traduction linguistique. Les propriétés de régularisation de LoRA PEFT contribuent également à prévenir le surajustement et à atténuer les risques que le modèle « oublie » le domaine source. Cela garantit que le modèle reste polyvalent et adaptable à diverses applications.

  • Vous pouvez utiliser LoRA PEFT pour optimiser des scénarios d’instructions avec des jeux de données relativement petits. LoRA PEFT est plus performant avec des jeux de données plus petits et spécifiques à une tâche qu’avec des jeux de données plus larges et plus volumineux.

  • Pour les jeux de données volumineux et étiquetés qui dépassent les limites de données de personnalisation d’Amazon Bedrock, vous pouvez utiliser LoRA PEFT sur SageMaker AI afin d’obtenir de meilleurs résultats.

  • Si vous avez déjà obtenu des résultats prometteurs grâce au peaufinage d’Amazon Bedrock, LoRA PEFT sur SageMaker AI peut vous aider à optimiser davantage les hyperparamètres du modèle.

Optimisation directe des préférences

L’optimisation directe des préférences (DPO) est une méthode de peaufinage efficace pour les modèles de fondation qui utilise des données de comparaison par paires afin d’aligner les résultats du modèle sur les préférences humaines. Cette approche permet d’optimiser directement le comportement du modèle en fonction des commentaires humains sur les réponses les plus souhaitables.

Pourquoi le DPO est important

Les modèles de fondation entraînés à partir de données à grande échelle génèrent souvent des résultats qui peuvent être corrects sur le plan factuel, mais qui ne correspondent pas aux besoins spécifiques des utilisateurs, aux valeurs de l’organisation ou aux exigences de sécurité. La DPO comble cette lacune en vous permettant de faire ce qui suit :

  • Optimiser les modèles en fonction des modèles de comportement souhaités.

  • Réduire les résultats indésirables ou les réponses préjudiciables.

  • Aligner les réponses du modèle sur la voix de la marque et les directives de communication.

  • Améliorer la qualité des réponses en fonction des commentaires des experts du domaine.

Fonctionnement du DPO

Le DPO utilise des exemples appariés dans lesquels des évaluateurs humains indiquent laquelle des deux réponses possibles est préférée. Le modèle apprend à maximiser la probabilité de générer les réponses préférées tout en minimisant les réponses indésirables. Vous pouvez mettre en œuvre le DPO en utilisant l’une des techniques suivantes :

  • DPO à rang complet : met à jour tous les paramètres du modèle afin de l’optimiser pour les réponses préférées.

  • DPO basé sur LoRA : utilise des adaptateurs légers pour apprendre les alignements de préférences, ce qui nécessite moins de ressources informatiques.

Quand choisir le DPO

Nous recommandons la DPO dans les scénarios suivants :

  • Optimisation pour les résultats subjectifs qui nécessitent un alignement avec des préférences humaines spécifiques.

  • Ajustement du ton, du style ou des caractéristiques de contenu du modèle pour correspondre aux modèles de réponse souhaités.

  • Pour apporter des améliorations ciblées à un modèle existant en fonction des commentaires des utilisateurs et de l’analyse des erreurs.

  • Pour maintenir une qualité de sortie constante dans différents cas d’utilisation.

  • Pour mettre en œuvre des barrières de protection grâce à des modèles de réponse préférés.

  • Pour entraîner avec un apprentissage par renforcement sans récompense.

  • Pour utiliser uniquement des données de préférence au lieu de données notées ou étiquetées.

  • Pour améliorer le modèle dans des tâches d’alignement nuancées, telles que l’utilité, l’innocuité ou l’honnêteté.

Le DPO est efficace pour affiner de manière itérative le comportement du modèle grâce à des jeux de données de préférences soigneusement sélectionnés qui montrent les résultats souhaités par opposition aux résultats indésirables. La flexibilité de la méthode, qui prend en charge les approches à rang complet et basées sur LoRA, vous permet de choisir la mise en œuvre la plus appropriée en fonction de vos ressources informatiques et de vos besoins spécifiques.

Distillation

La distillation de modèle est une méthode qui transfère les connaissances de modèles avancés de grande taille vers des modèles plus petits et plus efficaces. Avec les modèles Amazon Nova, un modèle « enseignant » plus grand (comme Amazon Nova Pro ou Amazon Nova Premier) transmet ses capacités à un modèle « étudiant » plus petit (comme Amazon Nova Lite ou Amazon Nova Micro). Cela permet de créer un modèle personnalisé qui conserve des performances élevées tout en utilisant moins de ressources.

Pour plus d’informations sur la manière de procéder à l’aide des tâches d’entraînement SageMaker AI, consultez Distillation Amazon Nova.