Connaissances factuelles - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Connaissances factuelles

Évalue la capacité des modèles linguistiques à reproduire des faits relatifs au monde réel. Les évaluations du modèle de base (FMEval) peuvent mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données REx open source T.

Amazon SageMaker AI permet de réaliser une évaluation factuelle des connaissances à partir d'Amazon SageMaker Studio ou d'utiliser la fmeval bibliothèque.

  • Exécution d’évaluations dans Studio : les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle.

  • Exécution d’évaluations à l’aide de la bibliothèque fmeval : les tâches d’évaluation créées à l’aide de la bibliothèque fmeval offrent des options étendues pour configurer l’évaluation des performances du modèle.

Type de tâche pris en charge

L’évaluation des connaissances factuelles est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les utilisateurs peuvent également apporter leur propre jeu de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour une évaluation factuelle des connaissances. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour en savoir plus sur la personnalisation de l’évaluation des connaissances factuelles à l’aide de la bibliothèque fmeval, consultez Personnalisation de votre flux de travail à l’aide de la bibliothèque fmeval.

Type de tâche Jeux de données intégrés Remarques
Génération ouverte T- REx Ce jeu de données ne prend en charge que la langue anglaise. Pour exécuter cette évaluation dans une autre langue, vous devez charger votre propre jeu de données.

Valeurs calculées

Cette évaluation fait la moyenne d’une seule métrique binaire pour chaque invite du jeu de données. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez Création d’une tâche d’évaluation automatique de modèles dans Studio. Pour chaque invite, les valeurs correspondent aux valeurs suivantes :

  • 0 : la réponse attendue en minuscules ne fait pas partie de la réponse du modèle.

  • 1 : la réponse attendue en minuscules fait partie de la réponse du modèle. Certaines paires de sujet et de prédicat peuvent avoir plus d’une réponse attendue. Dans ce cas, l’une et l’autre des réponses sont considérées comme correctes.

Exemple

  • Invite : Berlin is the capital of 

  • Réponse attendue : Germany

  • Texte généré : Germany, and is also its most populous city

  • Évaluation des connaissances factuelles : 1