Type de tâche pris en charge Valeurs calculées Exemple

Connaissances factuelles

Évalue la capacité des modèles linguistiques à reproduire des faits relatifs au monde réel. Les évaluations du modèle de base (FMeval) peuvent mesurer votre modèle par rapport à votre propre ensemble de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données T-RExopen source.

Amazon SageMaker AI permet de réaliser une évaluation factuelle des connaissances à partir d'Amazon SageMaker Studio ou d'utiliser la fmeval bibliothèque.

Exécution d’évaluations dans Studio : les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle.
Exécution d’évaluations à l’aide de la bibliothèque fmeval : les tâches d’évaluation créées à l’aide de la bibliothèque fmeval offrent des options étendues pour configurer l’évaluation des performances du modèle.

Type de tâche pris en charge

L’évaluation des connaissances factuelles est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les utilisateurs peuvent également apporter leur propre jeu de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour une évaluation factuelle des connaissances. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour en savoir plus sur la personnalisation de l’évaluation des connaissances factuelles à l’aide de la bibliothèque fmeval, consultez Personnalisez votre flux de travail à l'aide de la bibliothèque fmeval.

Type de tâche	Built-in ensembles de données	Remarques
Open-ended génération	T-REx	Ce jeu de données ne prend en charge que la langue anglaise. Pour exécuter cette évaluation dans une autre langue, vous devez charger votre propre jeu de données.

Valeurs calculées

Cette évaluation fait la moyenne d’une seule métrique binaire pour chaque invite du jeu de données. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez Création d’une tâche d’évaluation automatique de modèles dans Studio. Pour chaque invite, les valeurs correspondent aux valeurs suivantes :

0 : la réponse attendue en minuscules ne fait pas partie de la réponse du modèle.
1 : la réponse attendue en minuscules fait partie de la réponse du modèle. Certaines paires de sujet et de prédicat peuvent avoir plus d’une réponse attendue. Dans ce cas, l’une et l’autre des réponses sont considérées comme correctes.

Exemple

Invite : Berlin is the capital of
Réponse attendue : Germany.
Texte généré : Germany, and is also its most populous city
Évaluation des connaissances factuelles : 1

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Précision

Stéréotypage d’invite