Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration des fonctions de récompense pour les modèles Amazon Nova
Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Vous pouvez configurer des fonctions de récompense en utilisant des fonctions Lambda personnalisées ou des modèles de base hébergés par Amazon Bedrock en tant que juges. Des modèles guidés sont disponibles pour simplifier la création de fonctions de récompense pour les tâches courantes telles que le suivi des instructions et la validation du format. Choisissez l'approche qui correspond aux exigences de votre tâche.
Apprentissage par renforcement via des récompenses vérifiables (RLVR)
Le RLVR optimise les modèles pour des tâches objectives telles que la génération de code ou le raisonnement mathématique à l'aide d'évaluateurs ou de modèles vérifiables basés sur des règles. ready-to-use
Deux options s'offrent à vous pour le RLVR (code personnalisé) :
La console Amazon Bedrock fournit des exemples de modèles pour les fonctions Lambda de la niveleuse :
-
Raisonnement mathématique avec vérification de la vérité fondamentale
-
Validation du format et vérification des contraintes
-
Modèle Lambda de niveleuse générique avec code standard
Suivez les instructions du modèle fourni sur la page Create RFT job de la console Amazon Bedrock
Créez des fonctions de récompense personnalisées en utilisant votre propre ARN Lambda pour des calculs logiques complexes APIs, externes en plusieurs étapes ou en combinant plusieurs critères d'évaluation.
Note
Si vous apportez votre propre fonction Lambda, gardez à l'esprit les points suivants :
-
Augmentez le délai Lambda de 3 secondes par défaut à 15 minutes maximum pour les évaluations complexes.
-
Le rôle d'exécution Lambda a besoin d'autorisations pour invoquer des modèles, comme décrit dans. Accès et sécurité pour les modèles Amazon Nova
Apprentissage par renforcement via le feedback basé sur l'IA (RLAIF)
Le RLAIF optimise les modèles pour des tâches subjectives telles que le suivi des instructions ou les interactions avec des chatbots en utilisant des juges basés sur l'IA avec des modèles. ready-to-use
Pour le RLAIF (modèle en tant que juge) :
-
Sélectionnez un modèle de base hébergé par Amazon Bedrock comme juge
-
Instructions de configuration pour l'évaluation
-
Définir les critères d'évaluation et les directives de notation
Modèles d' LLM-as-Judgeinvite disponibles dans la console Amazon Bedrock :
-
Suivi des instructions (formation sur le modèle des juges)
-
Récapitulatif (boîtes de dialogue à plusieurs tours)
-
Évaluation du raisonnement (CoT pour les domaines spécialisés)
-
Fidélité RAG (questions-réponses contextuelles)
Note
L'option Model as Judge de la console convertit automatiquement votre configuration en fonction Lambda pendant l'entraînement.
Détails de mise en œuvre de la fonction Lambda
Lorsque vous implémentez des fonctions de récompense Lambda personnalisées, votre fonction doit accepter et renvoyer des données au format suivant.
Directives de conception
Classez les réponses — Donnez à la meilleure réponse un score nettement supérieur
Utilisez des contrôles cohérents : évaluez l'achèvement des tâches, le respect du format, la sécurité et une durée raisonnable
Maintenez une mise à l'échelle stable : maintenez les scores normalisés et non exploitables