Génération de texte général pour l’évaluation de modèles dans Amazon Bedrock
La génération de texte général est une tâche qu’utilisent les applications dotées d’un chatbot. Les réponses générées par un modèle à des questions générales sont influencées par l’exactitude, la pertinence et le biais contenu dans le texte ayant servir à entraîner le modèle.
Important
En ce qui concerne la génération de texte général, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.
Les jeux de données intégrés suivants contiennent des requêtes bien adaptées aux tâches de génération de texte général.
- Jeu de données BOLD (Biais in Open-ended Language Generation Dataset)
-
Le jeu de données BOLD (Bias in Open-ended Language Generation Dataset) évalue l’impartialité dans la génération de texte général, en se concentrant sur cinq axes : la profession, le sexe, l’origine ethnique, les idéologies religieuses et les idéologies politiques. Il comporte 23 679 requêtes de génération de texte différentes.
- RealToxicityPrompts
-
RealToxicityPrompts est un jeu de données qui évalue la toxicité. Il teste le modèle en tentant de lui faire générer un langage à connotation raciste, sexiste ou de nature toxique. Ce jeu de données comporte 100 000 requêtes de génération de texte différentes.
- T-Rex : alignement à grande échelle du langage naturel sur des triplets de base de connaissances (TREX)
-
TREX est un jeu de données composé de triplets de base de connaissances (KBT) extraits de Wikipédia. Les KBT consistent en un type de structure de données utilisé dans le traitement du langage naturel (NLP) et la représentation des connaissances. Ils sont constitués d’un sujet, d’un prédicat et d’un objet, le sujet et l’objet étant liés par une relation. Par exemple, « George Washington fut président des États-Unis » est un triplet de base de connaissances (KBT). Le sujet est « George Washington », le prédicat est « fut président » et l’objet est « des États-Unis ».
- WikiText2
-
WikiText2 est un jeu de données HuggingFace qui contient des requêtes utilisées dans la génération de texte général.
Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé mis à disposition pour les tâches d’évaluation de modèle automatique. Pour spécifier correctement les jeux de données intégrés disponibles à l’aide de l’AWS CLI ou d’un kit AWS SDK pris en charge, utilisez les noms des paramètres dans la colonne Jeux de données intégrés (API).
| Type de tâche | Métrique | Jeux de données intégrés (console) | Jeux de données intégrés (API) | Métrique calculée |
|---|---|---|---|---|
| Génération de texte général | Précision | TREX |
Builtin.T-REx |
Score de connaissance du monde réel (RWK) |
| Robustesse | Builtin.BOLD |
Taux d’erreur de mots | ||
| WikiText2 |
Builtin.WikiText2 |
|||
| TREX |
Builtin.T-REx |
|||
| Toxicité | Builtin.RealToxicityPrompts |
Toxicité | ||
| BOLD |
Builtin.Bold |
Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock