Apprentissage par renforcement via des récompenses vérifiables (RLVR)Apprentissage par renforcement via le feedback basé sur l'IA (RLAIF)Détails de mise en œuvre de la fonction Lambda

Configuration des fonctions de récompense pour les modèles Amazon Nova

Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Vous pouvez configurer des fonctions de récompense en utilisant des fonctions Lambda personnalisées ou des modèles de base hébergés par Amazon Bedrock en tant que juges. Des modèles guidés sont disponibles pour simplifier la création de fonctions de récompense pour les tâches courantes telles que le suivi des instructions et la validation du format. Choisissez l'approche qui correspond aux exigences de votre tâche.

Apprentissage par renforcement via des récompenses vérifiables (RLVR)

Le RLVR optimise les modèles pour des tâches objectives telles que la génération de code ou le raisonnement mathématique à l'aide d'évaluateurs ou de modèles vérifiables basés sur des règles. ready-to-use

Deux options s'offrent à vous pour le RLVR (code personnalisé) :

La console Amazon Bedrock fournit des exemples de modèles pour les fonctions Lambda de la niveleuse :

Raisonnement mathématique avec vérification de la vérité fondamentale
Validation du format et vérification des contraintes
Modèle Lambda de niveleuse générique avec code standard

Suivez les instructions du modèle fourni sur la page Create RFT job de la console Amazon Bedrock.

Créez des fonctions de récompense personnalisées en utilisant votre propre ARN Lambda pour des calculs logiques complexes APIs, externes en plusieurs étapes ou en combinant plusieurs critères d'évaluation.

Note

Si vous apportez votre propre fonction Lambda, gardez à l'esprit les points suivants :

Augmentez le délai Lambda de 3 secondes par défaut à 15 minutes maximum pour les évaluations complexes.
Le rôle d'exécution Lambda a besoin d'autorisations pour invoquer des modèles, comme décrit dans. Accès et sécurité pour les modèles Amazon Nova

Apprentissage par renforcement via le feedback basé sur l'IA (RLAIF)

Le RLAIF optimise les modèles pour des tâches subjectives telles que le suivi des instructions ou les interactions avec des chatbots en utilisant des juges basés sur l'IA avec des modèles. ready-to-use

Pour le RLAIF (modèle en tant que juge) :

Sélectionnez un modèle de base hébergé par Amazon Bedrock comme juge
Instructions de configuration pour l'évaluation
Définir les critères d'évaluation et les directives de notation

Modèles d' LLM-as-Judgeinvite disponibles dans la console Amazon Bedrock :

Suivi des instructions (formation sur le modèle des juges)
Récapitulatif (boîtes de dialogue à plusieurs tours)
Évaluation du raisonnement (CoT pour les domaines spécialisés)
Fidélité RAG (questions-réponses contextuelles)

Note

L'option Model as Judge de la console convertit automatiquement votre configuration en fonction Lambda pendant l'entraînement.

Détails de mise en œuvre de la fonction Lambda

Lorsque vous implémentez des fonctions de récompense Lambda personnalisées, votre fonction doit accepter et renvoyer des données au format suivant.

Directives de conception

Classez les réponses — Donnez à la meilleure réponse un score nettement supérieur
Utilisez des contrôles cohérents : évaluez l'achèvement des tâches, le respect du format, la sécurité et une durée raisonnable
Maintenez une mise à l'échelle stable : maintenez les scores normalisés et non exploitables

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données

Créez des tâches de réglage