Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation de jeux de données d’invite et de dimensions d’évaluation disponibles dans les tâches d’évaluation de modèles
Les sections suivantes fournissent une vue d’ensemble de l’utilisation de tâches d’évaluation automatique et basée sur l’humain de modèles.
Tâches d’évaluation de modèle
Dans une tâche d’évaluation de modèles, une tâche d’évaluation correspond à une tâche que doit effectuer le modèle en fonction des informations contenues dans les invites.
Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle. Utilisez les sections suivantes pour en savoir plus sur chaque type de tâche. Chaque section comprend également la liste des jeux de données intégrés disponibles, ainsi que les métriques correspondantes qui ne peuvent être utilisées que dans des tâches d’évaluation automatique de modèles.
Génération ouverte
La génération de texte ouverte est une tâche de modèle de fondation qui génère des réponses en langage naturel à des invites qui n’ont pas de structure prédéfinie, telles que des requêtes générales adressées à un chatbot. Pour la génération de texte ouvert, Foundation Model Evaluations (FMEval) peut évaluer votre modèle selon les dimensions suivantes.
-
Connaissances factuelles — Évalue dans quelle mesure votre modèle encode les connaissances factuelles. FMEval vous pouvez mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données TREX
open source. -
Robustesse sémantique : évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. FMEval mesure l'évolution de la sortie de votre modèle en raison de fautes de frappe au clavier, de modifications aléatoires en majuscules et d'ajouts ou de suppressions aléatoires d'espaces blancs.
-
Stéréotypage d’invite : mesure la probabilité que votre modèle présente des biais de codage dans sa réponse. Ces biais incluent ceux liés à la race, au sexe, à l'orientation sexuelle, à la religion, à l'âge, à la nationalité, au handicap, à l'apparence physique et au statut socio-économique. FMEval vous pouvez mesurer les réponses de votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur le jeu de données CrowS-Pairs
open source dédié aux défis. -
Toxicité — Évalue le texte à l'aide de modèles de détection de toxicité. FMEval vérifie votre modèle pour détecter les références sexuelles, les commentaires grossiers, déraisonnables, haineux ou agressifs, les blasphèmes, les insultes, les flirts, les attaques contre l'identité et les menaces. FMEval peut mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur les BOLD
ensembles de données RealToxicityPrompts RealToxicityPromptsChallenging, et. RealToxicityPromptsChallenging est un sous-ensemble de RealToxicityPrompts, qui est utilisé pour tester les limites d’un grand modèle de langage (LLM). Il identifie également les zones LLMs vulnérables à la génération de texte toxique.
Vous pouvez évaluer votre modèle à l’aide des détecteurs de toxicité suivants :
-
UnitaryAI Detoxify-unbiased
: un classificateur de texte multi-étiquettes entraîné sur Toxic Comment Classification Challenge et Jigsaw Unintended Bias in Toxicity Classification . Le modèle fournit 7scores pour les classes suivantes : toxicité, toxicité grave, obscénité, menace, insulte, caractère sexuel explicite et atteinte à l’identité. -
Toxigen-roberta
: classificateur de texte binaire basé sur RoBERTa et optimisé pour le jeu de données ToxiGen. Le jeu de données ToxiGen contient des phrases présentant une toxicité subtile et implicite envers des groupes minoritaires.
-
Synthèse de texte
La synthétisation de texte est utilisée pour des tâches comme la création de résumés d’actualités, de documents juridiques, d’articles universitaires, d’aperçus de contenu et de compilation de contenu. Les facteurs suivants peuvent influencer la qualité des réponses : ambiguïté, cohérence, biais, fluidité du texte utilisé pour former le modèle de base et perte d'informations, précision, pertinence ou inadéquation du contexte. FMEval peut évaluer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur les Government Report
DatasetGigaword
-
Précision : score numérique indiquant la similitude entre le résumé et un résumé de référence accepté comme référence absolue. Un score numérique élevé indique que le résumé est de grande qualité. Un score numérique faible indique un résumé médiocre. Les métriques suivantes sont utilisées pour évaluer l’exactitude d’un résumé :
-
ROUGE-N
: calcule les chevauchements N-gram entre la référence et le résumé du modèle. -
Meteor
: calcule le chevauchement des mots entre la référence et le résumé du modèle tout en tenant compte de la reformulation. -
BERTScore
— Calcule et compare les intégrations de phrases à des fins de synthèse et de référence. FMEval utilise les deberta-xlarge-mnli modèles roberta-large-mnli ou microsoft/ pour calculer les intégrations.
-
-
Toxicité : scores pour les résumés générés qui sont calculés à l’aide d’un modèle de détecteur de toxicité. Pour plus d’informations, consultez la section Toxicité de la rubrique précédente sur la tâche de génération ouverte pour plus de détails.
-
Robustesse sémantique : ampleur selon laquelle la qualité du résumé de texte de votre modèle change à la suite de petites modifications préservant la sémantique de l’entrée. Les exemples de ces modifications incluent les fautes de frappe, les modifications aléatoires apportées à la casse et les ajouts ou suppressions aléatoires d’espaces blancs. La robustesse sémantique utilise la différence absolue d’exactitude entre un résumé de texte non perturbé et un résumé perturbé. L’algorithme d’exactitude utilise les métriques ROUGE-N
, Meteor et BERTScore , telles qu’elles ont été détaillées précédemment dans cette section.
Réponse aux questions
La réponse aux questions est utilisée pour des tâches telles que la génération de réponses automatiques au service d'assistance, la récupération d'informations et l'apprentissage en ligne. FMEval peut évaluer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur les Natural Questions
-
Précision : score moyen comparant la réponse générée aux paires question-réponse données dans les références. La moyenne du score est calculée à l’aide des méthodes suivantes :
-
Correspondance exacte : un score binaire de
1est attribué à une correspondance exacte, et de0sinon. -
Correspondance quasi exacte : un score binaire de
1est attribué à une correspondance une fois que la ponctuation et les articles grammaticaux (tels que le, la, un et une) ont été supprimés (normalisation). -
F1 moyen par mot : score F1, ou moyenne harmonique de précision et de rappel entre la réponse normalisée et la référence. Le score F1 est égal à deux fois la précision multipliée par le rappel divisé par la somme de la précision (P) et du rappel (R), ou F1 = (2*P*R)/(P + R).
Dans le calcul précédent, la précision est définie comme le nombre de vrais positifs (TP) divisé par la somme des vrais positifs et des faux positifs (FP), ou P = (TP)/(TP+FP).
Le rappel est défini comme le nombre de vrais positifs divisé par la somme des vrais positifs et des faux négatifs (FN), ou R = (TP)/(TP+FN).
Un score F1 moyen par mot plus élevé indique des réponses de meilleure qualité.
-
-
Robustesse sémantique : ampleur selon laquelle la qualité du résumé de texte de votre modèle change à la suite de petites modifications préservant la sémantique de l’entrée. Les exemples de ces modifications incluent les fautes de frappe, la conversion inexacte de nombres en mots, les modifications aléatoires apportées à la casse et les ajouts ou suppressions aléatoires d’espaces blancs. La robustesse sémantique utilise la différence absolue d’exactitude entre un résumé de texte non perturbé et un résumé perturbé. L’exactitude est mesurée à l’aide d’une correspondance exacte, d’une correspondance quasi-exacte et du score F1 moyen par mot, comme décrit précédemment.
-
Toxicité : les scores évaluent les réponses générées à l’aide d’un modèle de détecteur de toxicité. Pour plus d’informations, consultez la section Toxicité de la rubrique précédente sur la tâche de génération ouverte pour plus de détails.
Classification
La classification sert à classer le texte dans des catégories prédéfinies. La recommandation de contenu, la détection de spam, l’identification de la langue et l’analyse des tendances sur les réseaux sociaux comptent parmi les applications qui utilisent la classification de texte. Les données déséquilibrées, ambiguës, bruyantes et les biais d'étiquetage sont des problèmes qui peuvent entraîner des erreurs de classification. FMEval évalue votre modèle par rapport à un jeu de données intégré basé sur le jeu de Women’s ECommerce Clothing Reviews
-
Exactitude : score qui compare la classe prédite à son étiquette. L’exactitude est mesurée à l’aide des métriques suivantes :
-
Exactitude de classification : score binaire de
1si l’étiquette prédite est égale à l’étiquette vraie, et de0sinon. -
Précision : rapport entre les vrais positifs et tous les positifs, calculé sur le jeu de données complet. La précision est une mesure appropriée lorsqu’il est important de réduire les faux positifs. Le score de chaque point de données peut être agrégé à l’aide des valeurs suivantes pour le paramètre
multiclass_average_strategy. Chaque paramètre est répertorié dans l’exemple suivant. -
Rappel : rapport entre les vrais positifs et la somme des vrais positifs et des faux négatifs, calculé sur le jeu de données complet. Le rappel est une mesure appropriée lorsqu’il est important de réduire les faux négatifs. Les scores de chaque point de données peuvent être agrégés à l’aide des valeurs suivantes pour le paramètre
multiclass_average_strategy.-
micro(par défaut) : somme des vrais positifs divisée par la somme des vrais positifs et des faux négatifs pour toutes les classes. Ce type d’agrégation fournit une mesure de l’exactitude prédictive globale de votre modèle, tout en considérant toutes les classes de la même manière. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à classer correctement les patients atteints de n’importe quelle maladie, y compris de maladies rares, car elle donne le même poids à toutes les classes. -
macro: somme des valeurs de rappel calculées pour chaque classe divisée par le nombre de classes. Ce type d’agrégation fournit une mesure de l’exactitude prédictive de votre modèle pour chaque classe, avec un poids égal pour chaque classe. Par exemple, cette agrégation permet d’évaluer la capacité de votre modèle à prédire toutes les maladies, indépendamment de la prévalence ou de la rareté de chaque condition. -
samples(classification multi-classes uniquement) : rapport entre la somme des vrais positifs sur tous les échantillons et la somme des vrais positifs et des faux négatifs pour tous les échantillons. Pour la classification multi-classes, un échantillon est constitué d’un ensemble de réponses prédites pour chaque classe. Ce type d’agrégation fournit une mesure granulaire du rappel de chaque échantillon pour des problèmes multi-classes. Par exemple, étant donné que l’agrégation par échantillons traite chaque échantillon de la même manière, cette agrégation peut évaluer la capacité de votre modèle à prédire un diagnostic correct pour un patient atteint d’une maladie rare tout en minimisant les faux négatifs. -
weighted: poids d’une classe multiplié par le rappel pour la même classe, cumulé sur l’ensemble des classes. Ce type d’agrégation fournit une mesure du rappel global tout en tenant compte des importances variées entre les classes. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à prédire un diagnostic correct pour un patient et accorder un plus grand poids aux maladies potentiellement mortelles. -
binary: rappel calculé pour la classe spécifiée par la valeurpos_label. Ce type d’agrégation ignore la classe non spécifiée et fournit l’exactitude prédictive globale pour une classe unique. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à dépister une maladie spécifique hautement contagieuse et potentiellement mortelle au sein d’une population. -
none: rappel calculé pour chaque classe. Le rappel spécifique à une classe peut vous aider à corriger le déséquilibre des classes dans vos données lorsque la pénalité en cas d’erreur varie considérablement d’une classe à l’autre. Par exemple, cette agrégation permet d’évaluer dans quelle mesure votre modèle peut identifier tous les patients susceptibles de présenter une maladie spécifique.
-
-
Exactitude de classification équilibrée (BCA) : somme du rappel et du taux de vrais négatifs divisée par
2pour une classification binaire. Le taux de vrais négatifs est le nombre de vrais négatifs divisé par la somme des vrais négatifs et des faux positifs. Pour la classification multi-classes, la BCA est calculée comme la somme des valeurs de rappel pour chaque classe divisée par le nombre de classes. La BCA peut être utile lorsque la pénalité pour prédire à la fois des faux positifs et des faux négatifs est élevée. Par exemple, la BCA peut évaluer dans quelle mesure votre modèle peut prédire un certain nombre de maladies mortelles hautement contagieuses grâce à des traitements intrusifs.
-
-
Robustesse sémantique : évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. FMEval mesure le résultat de votre modèle à la suite de fautes de frappe au clavier, de modifications aléatoires de majuscules et d'ajouts ou de suppressions aléatoires d'espaces blancs. La robustesse sémantique attribue un score à la différence absolue d’exactitude entre un résumé de texte non perturbé et un résumé perturbé.
Types d’évaluation de modèles de fondation
Les sections suivantes fournissent des détails sur les types d’évaluation humains et algorithmiques pour votre modèle de fondation.
Évaluations humaines
Pour que votre modèle soit évalué par un humain, vous devez définir les métriques et les types de métriques associés. Si vous souhaitez évaluer plusieurs modèles, vous pouvez utiliser un mécanisme de notation comparatif ou individuel. Si vous souhaitez évaluer un seul modèle, vous devez utiliser un mécanisme de notation individuel. Les mécanismes de notation suivants peuvent être appliqués à n’importe quelle tâche liée au texte :
-
(Comparatif) Échelle de Likert – comparaison : un évaluateur humain indiquera sa préférence entre deux réponses sur une échelle de Likert à 5 points, en fonction de vos instructions. Dans le rapport final, les résultats seront présentés sous la forme d’un histogramme des degrés de préférence sur l’ensemble de votre jeu de données. Définissez les points importants de l’échelle à 5 points dans vos instructions, de sorte que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes.
-
(Comparatif) Boutons de choix : permet à un évaluateur humain d’indiquer une réponse préférée par rapport à une autre à l’aide de cases d’option, conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un pourcentage de réponses que les employés ont préférées pour chaque modèle. Expliquez clairement votre méthode d’évaluation dans les instructions.
-
(Comparatif) Classement ordinal : permet à un évaluateur humain de classer les réponses à une invite par ordre de préférence, en partant de 1, conformément à vos instructions. Dans le rapport final, les résultats se présentent sous la forme d’un histogramme des classements des évaluateurs pour l’ensemble du jeu de données. Veillez à définir la signification d’un classement de
1dans vos instructions. -
(Individuel) Pouce vers le haut/vers le bas : permet à un évaluateur humain d’évaluer chaque réponse d’un modèle comme acceptable ou inacceptable, conformément à vos instructions. Dans le rapport final, les résultats montrent un pourcentage du nombre total d’évaluations approuvées (pouce vers le haut) par les évaluateurs, pour chaque modèle. Vous pouvez utiliser cette méthode d’évaluation pour évaluer un ou plusieurs modèles. Si vous l’utilisez pour une évaluation qui compte deux modèles, l’interface utilisateur propose à votre équipe de travail une option pouce vers le haut ou vers le bas pour chaque réponse de modèle. Le rapport final présentera les résultats agrégés pour chaque modèle individuellement. Définissez ce qui constitue une réponse acceptable dans les instructions que vous donnez à votre équipe de travail.
-
(Individuel) Échelle de Likert – individuelle : permet à un évaluateur humain d’indiquer dans quelle mesure il approuve la réponse du modèle, en fonction de vos instructions, sur une échelle de Likert à 5 points. Dans le rapport final, les résultats se présentent sous la forme d’un histogramme des classements à 5 points des évaluateurs pour l’ensemble du jeu de données. Vous pouvez utiliser cette méthode d’évaluation pour évaluer un ou plusieurs modèles. Si vous choisissez cette méthode d’évaluation pour une évaluation qui compte plusieurs modèles, une échelle de Likert à 5 points est présentée à votre équipe de travail pour chaque réponse de modèle. Le rapport final présentera les résultats agrégés pour chaque modèle individuellement. Définissez les points importants de l’échelle à 5 points dans vos instructions, de sorte que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes.
Évaluations automatiques
Les évaluations automatiques peuvent exploiter des jeux de données et des algorithmes intégrés, ou vous pouvez apporter votre propre jeu de données d’invites spécifiques à votre cas d’utilisation. Les jeux de données intégrés varient pour chaque tâche et sont répertoriés dans les sections suivantes. Pour un résumé des tâches et des métriques et jeux de données associés, consultez le tableau de la section suivante Résumé des évaluations des modèles de fondation.
Résumé des évaluations des modèles de fondation
Le tableau suivant récapitule toutes les tâches d’évaluation, les métriques et les jeux de données intégrés pour les évaluations humaines et automatiques.
| Sous-tâche | Évaluations humaines | Métriques humaines | Évaluations automatiques | Métriques automatiques | Jeux de données intégrés automatiques |
|---|---|---|---|---|---|
|
Génération ouverte |
Fluidité, cohérence, toxicité, exactitude, constance, pertinence, défini par l’utilisateur |
Taux de préférence, degré de préférence, rang de préférence, taux d’approbation, degré d’approbation |
Connaissances factuelles |
TREX |
|
|
Robustesse sémantique |
TREX |
||||
|
BOLD |
|||||
|
WikiText |
|||||
|
Stéréotypage d’invite |
CrowS-Pairs |
||||
|
Toxicité |
RealToxicityPrompts |
||||
|
BOLD |
|||||
|
Synthèse de texte |
Précision |
ROUGE-N |
Government Report Dataset |
||
|
BERTScore |
Gigaword |
||||
|
Government Report Dataset |
|||||
|
Gigaword |
|||||
|
Government Report Dataset |
|||||
|
Gigaword |
|||||
|
Réponse aux questions |
Précision |
Correspondance exacte |
BoolQ |
||
|
Correspondance quasi exacte |
NaturalQuestions |
||||
|
F1 moyen par mot |
TriviaQA |
||||
|
Robustesse sémantique |
BoolQ |
||||
|
NaturalQuestions |
|||||
|
TriviaQA |
|||||
|
Toxicité |
BoolQ |
||||
|
NaturalQuestions |
|||||
|
TriviaQA |
|||||
|
Classification de texte |
Précision |
Exactitude de classification |
Women's Ecommerce Clothing Reviews |
||
|
Précision |
Women's Ecommerce Clothing Reviews |
||||
|
Rappel |
Women's Ecommerce Clothing Reviews |
||||
|
Exactitude de classification équilibrée |
Women's Ecommerce Clothing Reviews |
||||
|
Robustesse sémantique |
Women's Ecommerce Clothing Reviews |