Personnalisez un modèle en affinant les armatures dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Personnalisez un modèle en affinant les armatures dans Amazon Bedrock

Le réglage fin du renforcement est une technique de personnalisation des modèles dans Amazon Bedrock. Il améliore les performances des modèles de base en leur enseignant ce qui constitue une « bonne » réponse par le biais de signaux de feedback appelés récompenses. Alors que les méthodes de réglage fine traditionnelles dépendent d'ensembles de données étiquetés, le réglage fin du renforcement utilise une approche axée sur le feedback. Cela permet aux modèles de s'améliorer de manière itérative en fonction des signaux de récompense. Au lieu de tirer des leçons d'exemples fixes, il utilise des fonctions de récompense pour évaluer et juger quelles réponses sont considérées comme bonnes pour des cas d'utilisation commerciaux particuliers.

Le réglage précis du renforcement apprend aux modèles à comprendre ce qui constitue une réponse de qualité. Vous n'avez pas besoin de grandes quantités de données d'entraînement préétiquetées. Cela rend la personnalisation avancée des modèles dans Amazon Bedrock plus accessible et plus rentable.

Cette fonctionnalité prend en charge deux approches afin de fournir la flexibilité nécessaire à l'optimisation des modèles :

  • Apprentissage par renforcement avec récompenses vérifiables (RLVR) - Utilise des évaluateurs basés sur des règles pour des tâches objectives telles que la génération de code ou le raisonnement mathématique

  • Reinforcement Learning from AI Feedback (RLAIF) - Utilise des juges basés sur l'IA pour des tâches subjectives telles que le suivi des instructions ou la modération du contenu

Pour de plus amples informations, veuillez consulter Configuration des fonctions de récompense.

Le réglage précis du renforcement peut apporter les avantages suivants :

  • Performances du modèle améliorées - Le réglage précis du renforcement améliore la précision du modèle par rapport aux modèles de base. Cela permet d'optimiser le prix et les performances en développant des variantes de modèles plus petites, plus rapides et plus efficaces.

  • Des données d'entraînement flexibles : Amazon Bedrock automatise une grande partie de la complexité. Cela rend le réglage précis du renforcement accessible aux développeurs qui créent des applications d'IA. Vous pouvez facilement entraîner des modèles en utilisant les journaux d'invocation des modèles Amazon Bedrock existants comme données d'entraînement ou télécharger vos ensembles de données.

  • Sécurité et conformité - Vos données propriétaires ne quittent jamais AWS l'environnement sécurisé et régi pendant le processus de personnalisation.

Modèles pris en charge pour un réglage précis du renforcement

Le tableau suivant présente les modèles de base que vous pouvez personnaliser grâce à un ajustement précis des armatures :

Modèles pris en charge pour un réglage précis du renforcement
Fournisseur Modèle ID du modèle Support du modèle à région unique
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0:256 k us-east-1

Comment fonctionne le réglage précis des armatures

Amazon Bedrock automatise entièrement le flux de travail RFT grâce à un processus en trois étapes :

Étape 1 : Génération de réponses

Le modèle d'acteur (le modèle en cours de personnalisation) reçoit des instructions de votre jeu de données d'entraînement et génère des réponses. Par défaut, il génère 4 réponses par invite. Cette étape prend en charge les interactions à tour unique et à tour multiple, ce qui permet une couverture complète des différents cas d'utilisation.

Étape 2 : Calcul des récompenses

Les paires prompte-réponse générées par le modèle d'acteur sont évaluées par les modèles d'optimisation que vous avez sélectionnés :

  • RLVR - Exécuter via Lambda pour calculer les scores objectifs

  • RLAIF - Évaluez les réponses en fonction des critères et des principes que vous configurez (la console les convertit automatiquement en fonctions Lambda)

Étape 3 : Formation d'acteur modèle

Amazon Bedrock utilise les paires prompte-réponse et les scores pour former le modèle d'acteur grâce à un apprentissage basé sur des politiques utilisant l'optimisation des politiques relatives aux groupes (GRPO). La boucle d'entraînement se poursuit de manière itérative jusqu'à ce que le modèle atteigne les indicateurs de performance souhaités ou réponde à des critères d'arrêt prédéfinis.

Amazon Bedrock gère automatiquement le calcul parallèle des récompenses, l'optimisation du pipeline de formation et met en œuvre des mesures de protection contre les problèmes courants liés à l'apprentissage par renforcement, tels que le piratage des récompenses et l'effondrement des politiques.