Configuration des fonctions de récompense - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des fonctions de récompense

Les fonctions de récompense évaluent la qualité des réponses et fournissent des signaux de rétroaction pour l'entraînement des modèles. Choisissez l'approche qui correspond aux exigences de votre tâche.

Apprentissage par renforcement via des récompenses vérifiables (RLVR)

Le RLVR vous permet d'optimiser les modèles pour des tâches objectives telles que la génération de code ou le raisonnement mathématique. Vous pouvez définir des fonctions de récompense à l'aide d'évaluateurs vérifiables basés sur des règles ou utiliser des ready-to-use modèles pour des cas d'utilisation courants tels que la vérification du format, la synthèse et la similitude de texte.

Deux options s'offrent à vous pour le RLVR (code personnalisé) :

  • Utiliser des modèles fournis par la console - La console Amazon Bedrock fournit des exemples de modèles pour les fonctions Lambda de la niveleuse :

    • Raisonnement mathématique avec vérification de la vérité fondamentale

    • Validation du format et vérification des contraintes

    • Modèle Lambda de niveleuse générique avec code standard pour la fonction Lambda de votre niveleuse

    Avant de configurer votre fonction Lambda, suivez les instructions du modèle fourni sur la page Create RFT job de la console Amazon Bedrock.

  • Apportez votre propre fonction Lambda : créez des fonctions de récompense personnalisées exécutées via des fonctions Lambda en utilisant votre propre ARN Lambda. Vous pouvez combiner plusieurs évaluateurs pour obtenir une seule note.

Apprentissage par renforcement via le feedback de l'IA (RLAIF)

Le RLAIF permet d'optimiser les tâches subjectives telles que le suivi des instructions ou les interactions avec les chatbots. Vous pouvez utiliser des juges basés sur l'IA avec des ready-to-use modèles pour les cas d'utilisation courants afin d'évaluer la qualité des réponses en fonction de critères que vous définissez.

Pour le RLAIF (modèle en tant que juge) :

  • Sélectionnez un modèle de base hébergé par Amazon Bedrock comme juge

  • Instructions de configuration pour l'évaluation

  • Définir les critères d'évaluation et les directives de notation

Vous pouvez utiliser les modèles d' LLM-as-Judgeinvite fournis dans la console Amazon Bedrock :

  • Suivi des instructions (formation sur le modèle des juges)

  • Récapitulatif (boîtes de dialogue à plusieurs tours)

  • Évaluation du raisonnement (CoT pour les domaines spécialisés)

  • Fidélité RAG (questions-réponses contextuelles)

Note
  • Lorsque vous utilisez l'option Model as Judge de la console, Amazon Bedrock convertit automatiquement votre configuration en une fonction Lambda qui s'exécute pendant l'entraînement.

  • Si vous utilisez votre propre fonction Lambda, le rôle d'exécution Lambda a besoin des autorisations nécessaires pour appeler des modèles dotés d'un ID de modèle ou d'un profil d'inférence, comme décrit dans. Autorisations relatives à la fonction Lambda du gradeur pour RLAIF