Type de tâche pris en charge Valeurs calculées

Précision

Cette évaluation mesure l’exactitude avec laquelle un modèle fonctionne dans le cadre d’une tâche en comparant la sortie du modèle à la réponse factuelle incluse dans le jeu de données.

Amazon SageMaker AI prend en charge l'exécution d'une évaluation de précision depuis Amazon SageMaker Studio ou l'utilisation de la fmeval bibliothèque.

Exécution d’évaluations dans Studio : les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle.
Exécution d’évaluations à l’aide de la bibliothèque fmeval : les tâches d’évaluation créées à l’aide de la bibliothèque fmeval offrent des options étendues pour configurer l’évaluation des performances du modèle.

Type de tâche pris en charge

L’évaluation de l’exactitude est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les jeux de données intégrés incluent un composant factuel utilisé pour évaluer l’exactitude. Les utilisateurs peuvent également apporter leurs propres jeux de données. Pour en savoir plus sur l’inclusion du composant factuel dans votre jeu de données, consultez Évaluation automatique de modèles.

Par défaut, l' SageMaker IA échantillonne 100 invites aléatoires de l'ensemble de données pour une évaluation de la précision. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la fmeval bibliothèque, voirPersonnalisation de votre flux de travail à l’aide de la bibliothèque fmeval.

Type de tâche	Jeux de données intégrés	Remarques
Synthèse de texte	Gigaword, Government Report Dataset	Les jeux de données intégrés sont uniquement en anglais, mais certaines métriques sont indépendantes de la langue. Vous pouvez apporter des jeux de données dans n’importe quelle langue.
Réponse aux questions	BoolQ, Trivia NaturalQuestions	Les jeux de données intégrés sont uniquement en anglais, mais certaines métriques sont indépendantes de la langue. Vous pouvez apporter des jeux de données dans n’importe quelle langue.
Classification	Women’s E-Commerce Clothing Reviews

Valeurs calculées

Les scores mesurés pour évaluer l’exactitude changent en fonction du type de tâche. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez Création d’une tâche d’évaluation automatique de modèles dans Studio.

Résumé

Pour les tâches de synthétisation, l’évaluation de l’exactitude mesure l’exactitude avec laquelle un modèle peut résumer du texte. Par défaut, cette évaluation compare le modèle sur deux jeux de données intégrés contenant des paires de texte d’entrée et de réponses factuelles. Les résumés générés par le modèle sont ensuite comparés aux réponses factuelles à l’aide de trois métriques intégrées qui mesurent la similitude des résumés de différentes manières. Tous ces scores sont moyennés sur le jeu de données complet.

Score ROUGE : les scores ROUGE sont une classe de métriques qui calculent des unités de mots qui se chevauchent (n-grammes) entre le résumé généré par le modèle et le résumé factuel afin de mesurer la qualité de synthétisation. Lors de l’évaluation d’un score ROUGE, des scores plus élevés indiquent que le modèle a pu créer un meilleur résumé.
- Les valeurs vont de 0 (aucune correspondance) à 1 (correspondance parfaite).
- Les métriques ne sont pas sensibles à la casse.
- Limite : peut être peu fiable pour les tâches de synthétisation abstraite, car le score repose sur le chevauchement exact des mots.
- Exemple de calcul de bigramme ROUGE
  - Résumé factuel : « Le chien a joué à rapporter le ballon au parc. »
  - Résumé généré : « Le chien a joué avec le ballon. »
  - ROUGE-2 : comptez le nombre de bigrammes (deux mots adjacents dans une phrase) communs entre la référence et le candidat. Il existe 4 bigrammes communs (« le chien », « chien a », « a joué », « le ballon »).
  - Divisez par le nombre total de bigrammes dans le résumé factuel : 9
  - ROUGE-2 = 4/9 = 0.444
- Valeurs par défaut du score ROUGE dans les tâches d’évaluation automatique de modèles Studio
  
  Lorsque vous créez une tâche d'évaluation automatique de modèle à l'aide de Studio, SageMaker AI utilise N=2 les N-grammes utilisés dans le calcul du score ROUGE. Par conséquent, la tâche d’évaluation de modèles utilise des bigrammes pour l’appariement. Les tâches Studio utilisent également la radicalisation de Porter pour supprimer les suffixes des mots de toutes les invites. Par exemple, la chaîne raining est tronquée en rain.
- Options de score ROUGE disponibles dans la bibliothèque fmeval
  
  À l’aide de la bibliothèque fmeval, vous pouvez configurer la façon dont le score ROUGE est calculé à l’aide du paramètre SummarizationAccuracyConfig. Les options suivantes sont prises en charge :
  - rouge_type : la longueur des n-grammes à respecter. Les trois valeurs prises en charge sont :
    
    ROUGE_1 correspond à des mots simples (unigrammes)
    
    ROUGE_2 correspond à des paires de mots (bigrammes). C’est la valeur par défaut.
    
    ROUGE_L correspond à la plus longue sous-séquence commune. Pour calculer la plus longue sous-séquence commune, l’ordre des mots est pris en compte, mais pas la consécutivité.
    
    Par exemple :
    
    résumé du modèle = « C’est l’automne »
    
    référence = « C’est encore une fois l’automne »
    
    Longest common subsequence(prediction, reference)=3.
  - use_stemmer_for_rouge : si True (par défaut), utilise la radicalisation de Porter pour supprimer les suffixes des mots.
    
    Par exemple : « raining » est tronqué en « rain ».
Métrique pour l'évaluation de la traduction avec un score explicite ORdering (METEOR) : METEOR est similaire à ROUGE-1, mais inclut également la correspondance entre les dérivés et les synonymes. Il fournit une vision plus globale de la qualité de la synthèse par rapport à ROUGE, qui se limite à une simple correspondance en n-grammes. Des scores METEOR plus élevés indiquent généralement une plus grande exactitude.
- Limite : peut être peu fiable pour les tâches de synthétisation abstraite, car le score repose sur le chevauchement de mots exacts et de synonymes.
BERTScore: BERTScore utilise un modèle ML supplémentaire de la famille BERT pour calculer les intégrations de phrases et comparer leur similitude en cosinus. Ce score vise à prendre en compte une plus grande flexibilité linguistique que ROUGE et METEOR, car des phrases sémantiquement similaires peuvent être intégrées plus près les unes des autres.
- Limites :
  - Hérite des limites du modèle utilisé pour comparer des passages.
  - Peut être peu fiable pour les comparaisons de textes courts lorsqu’un seul mot important est modifié.
- BERTScorevaleurs par défaut dans les tâches d'évaluation automatique de modèles de Studio
  
  Lorsque vous créez une tâche d'évaluation automatique de modèle à l'aide de Studio, SageMaker AI utilise le deberta-xlarge-mnli modèle pour calculer le BERTScore.
- BERTScore options disponibles dans la fmeval bibliothèque
  
  À l'aide de la fmeval bibliothèque, vous pouvez configurer BERTScore le mode de calcul du SummarizationAccuracyConfig paramètre. Les options suivantes sont prises en charge :
  - model_type_for_bertscore: nom du modèle à utiliser pour la notation. BERTScore ne prend actuellement en charge que les modèles suivants :
    
    "microsoft/deberta-xlarge-mnli" (par défaut)
    
    "roberta-large-mnli"

Réponse aux questions

Pour les tâches de réponses aux questions, l’évaluation de l’exactitude mesure les performances d’un modèle en matière de réponses aux questions (QA) en comparant de diverses manières les réponses générées aux réponses factuelles données. Tous ces scores sont moyennés sur le jeu de données complet.

Note

Ces métriques sont calculées en comparant les réponses générées et les réponses factuelles pour obtenir une correspondance exacte. Par conséquent, elles peuvent être moins fiables pour les questions dont la réponse peut être reformulée sans en modifier le sens.

Score de précision par mot : score numérique compris entre 0 (le pire) et 1 (le meilleur). Pour calculer ce score, la sortie du modèle et la vérité factuelle sont normalisées avant la comparaison. Avant de calculer la précision, cette évaluation supprime tous les caractères de nouvelle ligne pour tenir compte des réponses détaillées comportant plusieurs paragraphes distincts. La précision peut être évaluée dans n’importe quelle langue si vous chargez votre propre jeu de données.
- precision = true positives / (true positives + false positives)
  - true positives : nombre de mots de la sortie du modèle qui figurent également dans la vérité factuelle.
  - false positives : le nombre de mots de la sortie du modèle qui ne sont pas contenus dans la vérité factuelle.
Score de rappel par mot : score numérique compris entre 0 (le pire) et 1 (le meilleur). Pour calculer ce score, la sortie du modèle et la vérité factuelle sont normalisées avant la comparaison. Avant de calculer le rappel, cette évaluation supprime tous les caractères de nouvelle ligne pour tenir compte des réponses détaillées comportant plusieurs paragraphes distincts. Comme le rappel vérifie uniquement si la réponse contient la vérité factuelle et ne pénalise pas le niveau de détail, nous suggérons d’utiliser le rappel pour les modèles détaillés. Le rappel peut être évalué dans n’importe quelle langue si vous chargez votre propre jeu de données.
- recall = true positives / (true positives + false negatives)
  - true positives : nombre de mots de la sortie du modèle qui figurent également dans la vérité factuelle.
  - false negatives : nombre de mots absents de la sortie du modèle, mais inclus dans la vérité factuelle.
Score F1 par mot : score numérique compris entre 0 (le pire) et 1 (le meilleur). F1 correspond à la moyenne harmonique de la précision et du rappel. Pour calculer ce score, la sortie du modèle et la vérité factuelle sont normalisées avant la comparaison. Avant de calculer F1, cette évaluation supprime tous les caractères de nouvelle ligne pour tenir compte des réponses détaillées comportant plusieurs paragraphes distincts. Le score F1 par mot peut être évalué dans n’importe quelle langue si vous chargez votre propre jeu de données.
- F1 = 2*((precision * recall)/(precision + recall))
  - precision : la précision est calculée de la même manière que le score de précision.
  - recall : le rappel est calculé de la même manière que le score de rappel.
Score de correspondance exacte (EM) : score binaire qui indique si la sortie du modèle correspond exactement à la réponse factuelle. La correspondance exacte peut être évaluée dans n’importe quelle langue si vous chargez votre propre jeu de données.
- 0 : pas une correspondance exacte.
- 1 : correspondance exacte.
- Exemple :
  - Question : “where is the world's largest ice sheet located today?”
  - Vérité factuelle : « Antarctique »
  - Réponse générée : « en Antarctique »
    
    Score : 0
  - Réponse générée : « Antarctique »
    
    Score : 1
Score de correspondance quasi exacte : score binaire calculé de la même manière que le score EM, mais la sortie du modèle et la vérité factuelle sont normalisées avant la comparaison. Dans les deux, la sortie est normalisée en étant convertie en minuscules, puis en supprimant les articles, les signes de ponctuation et les espaces blancs en excès.
- 0 : pas une correspondance quasi exacte.
- 1 : correspondance quasi exacte.
- Exemple :
  - Question : “where is the world's largest ice sheet located today?”
  - Vérité factuelle : « Antarctique »
  - Réponse générée : « en Amérique du Sud »
    
    Score : 0
  - Réponse générée : « en Antarctique »
    
    Score : 1

Classification

Pour les tâches de classification, l’évaluation de l’exactitude compare la classe d’entrée prévue à son étiquette donnée. Tous ces scores sont moyennés individuellement sur le jeu de données complet.

Score d’exactitude : score binaire qui indique si l’étiquette prédite par le modèle correspond exactement à l’étiquette donnée de l’entrée.
- 0 : pas une correspondance exacte.
- 1 : correspondance exacte.
Score de précision : score numérique compris entre 0 (le pire) et 1 (le meilleur).
- precision = true positives / (true positives + false positives)
  - true positives : nombre d’entrées pour lesquelles le modèle a prédit l’étiquette donnée pour leur entrée respective.
  - false positives : nombre d’entrées pour lesquelles le modèle a prédit une étiquette qui ne correspondait pas à l’étiquette donnée pour leur entrée respective.
- Valeurs par défaut du score de précision dans les tâches d’évaluation automatique de modèles Studio
  
  Lorsque vous créez une tâche d'évaluation automatique de modèle à l'aide de Studio, l' SageMaker IA calcule la précision globale pour toutes les classes en comptant le nombre total de vrais positifs, de faux négatifs et de faux positifs.
- Options de score de précision disponibles dans la bibliothèque fmeval
  
  À l’aide de la bibliothèque fmeval, vous pouvez configurer la façon dont le score de précision est calculé à l’aide du paramètre ClassificationAccuracyConfig. Les options suivantes sont prises en charge :
  - multiclass_average_strategy détermine la manière dont les scores sont agrégés entre les classes dans le paramètre de la classification multi-classes. Les valeurs possibles sont {'micro', 'macro', 'samples', 'weighted', 'binary'} ou None (par défaut='micro'). Dans le cas par défaut ’micro', la précision est calculée globalement sur l’ensemble des classes en comptant le nombre total de vrais positifs, de faux négatifs et de faux positifs. Pour toutes les autres options, consultez sklearn.metrics.precision_score.
    
    Note
    Pour la classification binaire, nous recommandons d’utiliser la stratégie de moyennage 'binary', qui correspond à la définition classique de la précision.
Score de rappel : score numérique compris entre 0 (le pire) et 1 (le meilleur).
- recall = true positives / (true positives + false negatives)
  - true positives : nombre d’entrées pour lesquelles le modèle a prédit l’étiquette donnée pour leur entrée respective.
  - false negatives : nombre d’entrées pour lesquelles le modèle n’a pas prédit l’étiquette donnée pour leur entrée respective.
- Valeurs par défaut du score de rappel dans les tâches d’évaluation automatique de modèles Studio
  
  Lorsque vous créez une tâche d'évaluation automatique de modèle à l'aide de Studio, l' SageMaker IA calcule le rappel global pour toutes les classes en comptant le nombre total de vrais positifs, de faux négatifs et de faux positifs.
- Options de score de rappel disponibles dans la bibliothèque fmeval
  
  À l’aide de la bibliothèque fmeval, vous pouvez configurer la façon dont le score de rappel est calculé à l’aide du paramètre ClassificationAccuracyConfig. Les options suivantes sont prises en charge :
  - multiclass_average_strategy détermine la manière dont les scores sont agrégés entre les classes dans le paramètre de la classification multi-classes. Les valeurs possibles sont {'micro', 'macro', 'samples', 'weighted', 'binary'} ou None (par défaut='micro'). Dans le cas par défaut ’micro', le rappel est calculé globalement sur l’ensemble des classes en comptant le nombre total de vrais positifs, de faux négatifs et de faux positifs. Pour toutes les autres options, consultez sklearn.metrics.precision_score.
    
    Note
    Pour la classification binaire, nous recommandons d’utiliser la stratégie de moyennage 'binary', qui correspond à la définition classique du rappel.

Exactitude de classification équilibrée : score numérique compris entre 0 (le pire) et 1 (le meilleur).

Pour la classification binaire : ce score est calculé de la même manière que l’exactitude.

Pour la classification multi-classes : ce score fait la moyenne des scores de rappel individuels pour toutes les classes.

Pour les exemples de sortie suivants :

Texte de révision	Étiquette de vérité sur le terrain	Nom de classe	Étiquette prévue
Gâteau délicieux ! Je l’achèterais à nouveau.	3	brownie	3
Très bon gâteau ! Recommandé.	2	quatre-quarts	2
Horrible ! Gâteau dégoûtant.	1	quatre-quarts	2

Rappel de classe 1 : 0
Rappel de classe 2 : 1
Rappel de classe 3 : 1
Exactitude de classification équilibrée : (0+1+1)/3=0,66

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Jeux de données d’invite et dimensions d’évaluation

Connaissances factuelles