Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluez votre modèle RFT
Une fois que votre travail de mise au point du renforcement est terminé avec succès, vous pouvez évaluer les performances de votre modèle personnalisé à l'aide de plusieurs méthodes d'évaluation. Amazon Bedrock fournit des outils d'évaluation intégrés pour vous aider à comparer votre modèle RFT au modèle de base et à valider les améliorations.
Rubriques
Méthodes d'évaluation
Amazon Bedrock propose plusieurs méthodes pour évaluer les performances de votre modèle RFT.
Métriques de validation
Si vous chargez un ensemble de données de validation, deux graphiques supplémentaires apparaîtront dans les métriques d'entraînement.
-
Récompenses de validation : montre dans quelle mesure votre modèle se généralise au-delà des exemples de formation. Des scores inférieurs à ceux des récompenses d'entraînement sont normaux et attendus.
-
Durée des épisodes de validation : durée moyenne des réponses sur des données de validation invisibles. Montre l'efficacité avec laquelle votre modèle répond aux nouvelles entrées par rapport aux exemples d'apprentissage.
Test dans Playground
Utilisez la fonctionnalité Test in Playground pour des évaluations rapides et ad hoc. Pour utiliser la fonctionnalité Test in Playground, l'inférence doit être configurée. Pour de plus amples informations, veuillez consulter Configuration de l'inférence pour l'évaluation.
Cet outil interactif vous permet de :
-
Testez les instructions directement avec votre modèle RFT
-
Comparez les réponses side-by-side entre votre modèle personnalisé et le modèle de base
-
Évaluez les améliorations de la qualité des réponses en temps réel
-
Testez différentes instructions pour évaluer les capacités du modèle
Évaluation du modèle Bedrock
Utilisez l'évaluation du modèle d'Amazon Bedrock pour évaluer votre modèle RFT à l'aide de vos propres ensembles de données. Cela fournit une analyse complète des performances avec des métriques et des benchmarks standardisés. Voici quelques exemples des avantages de l'évaluation du modèle Amazon Bedrock.
-
Évaluation systématique à l'aide d'ensembles de données de test personnalisés
-
Comparaisons de performances quantitatives
-
Des mesures standardisées pour une évaluation cohérente
-
Intégration aux flux de travail d'évaluation Amazon Bedrock existants
Configuration de l'inférence pour l'évaluation
Avant d'évaluer votre modèle RFT, configurez l'inférence à l'aide de l'une des options suivantes :
Inférence à la demande
Créez un modèle personnalisé de déploiement à la demande pour une pay-per-use évaluation flexible. Cette option inclut une tarification basée sur les jetons qui est facturée en fonction du nombre de jetons traités lors de l'inférence.
Bonnes pratiques en matière d'évaluation
-
Comparez systématiquement : évaluez toujours votre modèle RFT par rapport au modèle de base en utilisant les mêmes instructions de test et les mêmes critères d'évaluation.
-
Utilisez des cas de test variés : incluez différents types d'invite et scénarios qui représentent vos cas d'utilisation réels.
-
Validez l'alignement des récompenses : assurez-vous que les améliorations de votre modèle correspondent aux fonctions de récompense utilisées pendant l'entraînement.
-
Cas de pointe du test : évaluez le comportement du modèle sur des entrées difficiles ou inhabituelles afin d'évaluer sa robustesse.
-
Surveillez la cohérence des réponses : vérifiez que votre modèle fournit une qualité constante sur plusieurs cycles avec des instructions similaires.