Types de tâches d’évaluation de modèles dans Amazon Bedrock
Dans une tâche d’évaluation de modèle, un type de tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos invites. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.
Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les jeux de données intégrés et les métriques pertinentes pour chaque type de tâche.
| Type de tâche | Métrique | Jeux de données intégrés | Métrique calculée |
|---|---|---|---|
| Génération de texte général | Précision | TREX |
Score de connaissance du monde réel (RWK) |
| Robustesse | Taux d’erreur de mots | ||
| TREX |
|||
| WikiText2 |
|||
| Toxicité | Toxicité | ||
| BOLD |
|||
| Synthèse de texte | Précision | Gigaword |
BERTScore |
| Toxicité | Gigaword |
Toxicité | |
| Robustesse | Gigaword |
BERTScore et deltaBERTScore | |
| Question/réponse | Précision | BoolQ |
NLP-F1 |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Robustesse | BoolQ |
F1 et deltaF1 | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Toxicité | BoolQ |
Toxicité | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Classification de texte | Précision | Women’s Ecommerce Clothing Reviews |
Précision (précision binaire résultant de classification_accuracy_score) |
| Robustesse | Women’s Ecommerce Clothing Reviews |
classification_accuracy_score et delta_classification_accuracy_score |