Types de tâches d’évaluation de modèles dans Amazon Bedrock - Amazon Bedrock

Types de tâches d’évaluation de modèles dans Amazon Bedrock

Dans une tâche d’évaluation de modèle, un type de tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos invites. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.

Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les jeux de données intégrés et les métriques pertinentes pour chaque type de tâche.

Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock
Type de tâche Métrique Jeux de données intégrés Métrique calculée
Génération de texte général Précision TREX Score de connaissance du monde réel (RWK)
Robustesse

BOLD

Taux d’erreur de mots
TREX
WikiText2
Toxicité

RealToxicityPrompts

Toxicité
BOLD
Synthèse de texte Précision Gigaword BERTScore
Toxicité Gigaword Toxicité
Robustesse Gigaword BERTScore et deltaBERTScore
Question/réponse Précision BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustesse BoolQ F1 et deltaF1
NaturalQuestions
TriviaQA
Toxicité BoolQ Toxicité
NaturalQuestions
TriviaQA
Classification de texte Précision Women’s Ecommerce Clothing Reviews Précision (précision binaire résultant de classification_accuracy_score)
Robustesse Women’s Ecommerce Clothing Reviews

classification_accuracy_score et delta_classification_accuracy_score