SageMaker Emplois de formation en IA - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker Emplois de formation en IA

La personnalisation des modèles Amazon Nova Amazon SageMaker Training Jobs suit un flux de travail structuré conçu pour simplifier le processus complexe de réglage précis des grands modèles linguistiques. Ce end-to-end flux de travail inclut la formation, l'évaluation et le déploiement des modèles à des fins d'inférence. Pour plus d'informations, consultez la section Personnalisation des modèles Amazon Nova dans le manuel Amazon SageMaker AI Developer Guide.

Avec Amazon SageMaker AI, vous pouvez affiner les modèles de base préentraînés existants, tels qu'Amazon Nova, sans avoir à créer vos propres modèles à partir de zéro. Les sections suivantes décrivent les options de réglage précis de l' SageMaker IA lorsque vous travaillez avec les modèles Amazon Nova Foundation.

Réglage précis complet

Le réglage complet du classement modifie tous les paramètres du modèle de base afin d'optimiser ses performances pour des tâches ou des domaines spécifiques. Cette approche globale met à jour l'ensemble de l'architecture du modèle, permettant des adaptations plus approfondies que les méthodes basées sur des adaptateurs. Pour plus d'informations, voir Affiner les modèles de base.

Comment fonctionne le réglage précis du classement complet

Lors du réglage complet du classement, le modèle apprend en mettant à jour tous ses paramètres à l'aide de vos données d'entraînement. Ce processus de réglage complet :

  • Permet au modèle de développer des connaissances spécialisées pour votre domaine.

  • Permet de modifier de manière significative les représentations sous-jacentes du modèle.

  • Nécessite davantage de ressources informatiques que les méthodes basées sur des adaptateurs, mais permet d'obtenir de meilleures performances spécifiques aux tâches.

Quand choisir le réglage précis du classement complet

Nous vous recommandons d'effectuer un réglage précis du classement complet dans les scénarios suivants :

  • Lorsque le réglage précis du LoRa PEFT n'atteint pas les niveaux de performance souhaités.

  • Pour les domaines spécialisés qui nécessitent une expertise approfondie (tels que les domaines médicaux, juridiques ou techniques).

  • Lorsque vous disposez de grands ensembles de données de haute qualité pour votre cas d'utilisation.

  • Lorsque les exigences de précision l'emportent sur les considérations liées aux coûts de calcul.

  • Pour les applications qui nécessitent un écart significatif par rapport au comportement du modèle de base.

Réglage précis de l'adaptateur bas de gamme

La méthode la plus efficace et la plus rentable pour améliorer les performances du modèle de base est le réglage fin efficace des paramètres des adaptateurs de bas niveau (LoRa PEFT). Le principe sous-jacent de LoRa PEFT est que seul un petit nombre de poids supplémentaires nécessitent une mise à jour pour l'adapter à de nouvelles tâches ou domaines.

LoRa PEFT affine efficacement les modèles de base en introduisant des matrices de poids de bas rang pouvant être entraînées dans des couches de modèles spécifiques, réduisant ainsi le nombre de paramètres pouvant être entraînés tout en préservant la qualité du modèle. Un adaptateur PEFT LoRa complète le modèle de base en incorporant des couches d'adaptation légères qui modifient les poids du modèle lors de l'inférence, tout en préservant les paramètres du modèle d'origine intacts. Cette approche est également considérée comme l'une des techniques de réglage fin les plus rentables. Pour plus d'informations, voir Affiner les modèles avec les composants d'inférence des adaptateurs.

Quand choisir LoRa PEFT

Nous recommandons d'utiliser LoRa PEFT dans les scénarios suivants :

  • Vous devriez généralement commencer par LoRa PEFT plutôt que d'autres méthodes de réglage précis, car il s'agit d'une procédure d'entraînement rapide.

  • Le PEFT LoRa est efficace dans les cas où les performances du modèle de base sont déjà satisfaisantes. Dans ce cas, l'objectif de LoRa PEFT est d'améliorer ses capacités dans le cadre de multiples tâches connexes, telles que la synthèse de texte ou la traduction linguistique. Les propriétés de régularisation de LoRa PEFT aident également à prévenir le surajustement et à atténuer le risque que le modèle « oublie » le domaine source. Cela garantit que le modèle reste polyvalent et adaptable à diverses applications.

  • Vous pouvez utiliser LoRa PEFT pour affiner les scénarios d'instructions avec des ensembles de données relativement petits. LoRa PEFT fonctionne mieux avec des ensembles de données plus petits et spécifiques à une tâche que des ensembles de données plus larges et plus grands.

  • Pour les grands ensembles de données étiquetés qui dépassent les limites de données de personnalisation d'Amazon Bedrock, vous pouvez utiliser LoRa PEFT sur SageMaker IA pour obtenir de meilleurs résultats.

  • Si vous avez déjà obtenu des résultats prometteurs grâce au réglage précis d'Amazon Bedrock, LoRa PEFT sur SageMaker IA peut vous aider à optimiser davantage les hyperparamètres du modèle.

Optimisation directe des préférences

L'optimisation directe des préférences (DPO) est une méthode de réglage précis efficace pour les modèles de base qui utilise des données de comparaison par paires pour aligner les résultats des modèles sur les préférences humaines. Cette approche permet d'optimiser directement le comportement du modèle en fonction des commentaires humains concernant les réponses les plus souhaitables.

Pourquoi le DPO est important

Les modèles de base formés sur des données à grande échelle génèrent souvent des résultats qui peuvent être corrects sur le plan factuel mais ne correspondent pas aux besoins spécifiques des utilisateurs, aux valeurs organisationnelles ou aux exigences de sécurité. Le DPO comble cette lacune en vous permettant d'effectuer les opérations suivantes :

  • Ajustez les modèles en fonction des modèles de comportement souhaités.

  • Réduisez les sorties indésirables ou les réponses nuisibles.

  • Alignez les réponses des modèles sur la voix de la marque et les directives de communication.

  • Améliorez la qualité des réponses en fonction des commentaires des experts du domaine.

Comment fonctionne le DPO

Le DPO utilise des exemples par paires où des évaluateurs humains indiquent laquelle des deux réponses possibles est préférée. Le modèle apprend à maximiser la probabilité de générer des réponses préférées tout en minimisant les réponses indésirables. Vous pouvez implémenter le DPO en utilisant l'une des techniques suivantes :

  • DPO de rang complet : met à jour tous les paramètres du modèle pour optimiser les réponses préférées.

  • DPO basé sur LoRA : utilise des adaptateurs légers pour apprendre les alignements de préférences, ce qui nécessite moins de ressources informatiques.

Quand choisir le DPO

Nous vous recommandons d'utiliser DPO dans les scénarios suivants :

  • Optimisation pour les résultats subjectifs qui nécessitent un alignement sur des préférences humaines spécifiques.

  • Ajustement du ton, du style ou des caractéristiques du contenu du modèle pour qu'il corresponde aux modèles de réponse souhaités.

  • Apporter des améliorations ciblées à un modèle existant en fonction des commentaires des utilisateurs et de l'analyse des erreurs.

  • Maintien d'une qualité de sortie constante dans les différents cas d'utilisation.

  • Mise en œuvre de garde-corps de sécurité grâce à des modèles de réponse privilégiés.

  • Entraînement avec apprentissage par renforcement sans récompense.

  • Utiliser uniquement des données de préférence au lieu de données notées ou étiquetées.

  • Améliorer le modèle dans le cadre de tâches d'alignement nuancées, telles que l'utilité, l'innocuité ou l'honnêteté.

Le DPO est efficace pour affiner de manière itérative le comportement des modèles grâce à des ensembles de données de préférences soigneusement sélectionnés qui indiquent les résultats souhaités par rapport aux résultats indésirables. La flexibilité de la méthode en matière de prise en charge des approches complètes et basées sur LoRA vous permet de choisir l'implémentation la plus appropriée en fonction de vos ressources informatiques et de vos exigences spécifiques.

Distillation

La distillation par modèle est une méthode qui transfère les connaissances des grands modèles avancés vers des modèles plus petits et efficaces. Avec les modèles Amazon Nova, un modèle « enseignant » plus large (comme Amazon Nova Pro ou Amazon Nova Premier) transmet ses capacités à un modèle « étudiant » plus petit (comme Amazon Nova Lite ou Amazon Nova Micro). Cela crée un modèle personnalisé qui maintient des performances élevées tout en utilisant moins de ressources.

Pour savoir comment effectuer cette opération à l'aide de SageMaker AI Training Jobs, consultez Amazon Nova Distillation.