Questions et réponses pour l’évaluation de modèles dans Amazon Bedrock

Les questions/réponses sont utilisées pour certaines tâches comme la génération de réponses automatiques d’un service d’assistance, la récupération d’informations et la formation en ligne. Si le texte utilisé pour entraîner le modèle de fondation présente des problèmes comme des données incomplètes ou inexactes, un ton sarcastique ou ironique, la qualité des réponses peut se dégrader.

Important

En ce qui concerne les questions et les réponses, un problème système connu empêche les modèles Cohere de mener à bien une évaluation de toxicité.

Il est recommandé d'utiliser les ensembles de données intégrés suivants avec le type de tâche question-réponse.

BoolQ: BoolQ est un ensemble de données composé de paires de yes/no questions et réponses. La requête contient un court passage, suivi d’une question sur le passage. Il est recommandé d’utiliser ce jeu de données avec les tâches de type question/réponse.
Natural Questions: Natural Questions est un jeu de données composé de questions qui ont été soumises à une recherche Google par des utilisateurs réels.
TriviaQA: TriviaQA est un jeu de données qui contient plus de 650 000 triplets question/réponse/preuve. Ce jeu de données est utilisé dans les tâches question/réponse.

Le tableau suivant offre un résumé des métriques calculées et du jeu de données intégré recommandé. Pour spécifier correctement les ensembles de données intégrés disponibles à l'aide de l'API AWS CLI, ou d'un AWS SDK compatible, utilisez les noms de paramètres figurant dans la colonne « Built-inDatasets » (API).

Jeux de données intégrés disponibles pour les tâches de type question/réponse dans Amazon Bedrock
Type de tâche	Métrique	Built-in ensembles de données (console)	Built-in ensembles de données (API)	Métrique calculée
Question/réponse	Précision	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Robustesse	BoolQ	`Builtin.BoolQ`	F1 et deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	Toxicité	BoolQ	`Builtin.BoolQ`	Toxicité
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

Pour en savoir plus sur le mode de calcul de la métrique pour chaque jeu de données intégré, consultez Examen des rapports et des métriques des tâches d’évaluation de modèles dans Amazon Bedrock

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Synthèse de texte

Classification de texte