Types de tâches d’évaluation de modèles dans Amazon Bedrock

Dans une tâche d’évaluation de modèle, un type de tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans vos invites. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.

Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les jeux de données intégrés et les métriques pertinentes pour chaque type de tâche.

Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock
Type de tâche	Métrique	Built-in ensembles de données	Métrique calculée
Génération de texte général	Précision	TREX	Score de connaissance du monde réel (RWK)
	Robustesse	BOLD	Taux d’erreur de mots
		TREX
		WikiText2
	Toxicité	RealToxicityPrompts	Toxicité
	Toxicité	BOLD	Toxicité
Synthèse de texte	Précision	Gigaword	BERTScore
	Toxicité	Gigaword	Toxicité
	Robustesse	Gigaword	BERTScore et deltaBERTScore
Question/réponse	Précision	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustesse	BoolQ	F1 et deltaF1
		NaturalQuestions
		TriviaQA
	Toxicité	BoolQ	Toxicité
		NaturalQuestions
		TriviaQA
Classification de texte	Précision	Women’s Ecommerce Clothing Reviews	Précision (précision binaire résultant de classification_accuracy_score)
Classification de texte	Robustesse	Women’s Ecommerce Clothing Reviews	classification_accuracy_score et delta_classification_accuracy_score

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Conditions préalables

Génération de texte général