Préparez vos données d'entraînement et vos fonctions de récompense pour affiner le renforcement - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparez vos données d'entraînement et vos fonctions de récompense pour affiner le renforcement

Pour créer une tâche d'ajustement précis du renforcement, vous avez besoin de données d'entraînement et de fonctions de récompense qui évaluent la qualité de la réponse. Contrairement au réglage fin traditionnel qui nécessite des paires d'entrées-sorties, le RFT utilise des instructions et des signaux de récompense pour guider l'apprentissage du modèle.

Vous pouvez utiliser les journaux d'invocation de l'API Amazon Bedrock existants comme données de formation ou télécharger de nouveaux ensembles de données. Les fonctions de récompense définissent ce qui constitue une bonne réponse et peuvent utiliser la vérification basée sur des règles (RLVR) ou le jugement basé sur l'IA (RLAIF).

Important

Vous pouvez fournir un maximum de 20 000 instructions à Amazon Bedrock pour renforcer et affiner le modèle.