Type de tâche pris en charge Types de perturbations Valeurs calculées

Robustesse sémantique

Évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. Les évaluations du modèle de base (FMEval) mesurent l'évolution de la sortie de votre modèle en raison de fautes de frappe au clavier, de modifications aléatoires en majuscules et d'ajouts ou de suppressions aléatoires d'espaces blancs.

Amazon SageMaker AI prend en charge l'exécution d'une évaluation de la robustesse sémantique à partir d'Amazon SageMaker Studio ou à l'aide de la fmeval bibliothèque.

Exécution d’évaluations dans Studio : les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle. Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Elles doivent être créées à l’aide de la bibliothèque fmeval.
Exécution d’évaluations à l’aide de la bibliothèque fmeval : les tâches d’évaluation créées à l’aide de la bibliothèque fmeval offrent des options étendues pour configurer l’évaluation des performances du modèle.

Type de tâche pris en charge

L’évaluation de la robustesse sémantique est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les utilisateurs peuvent également apporter leur propre jeu de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour l'évaluation de la toxicité. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la fmeval bibliothèque, voirPersonnalisation de votre flux de travail à l’aide de la bibliothèque fmeval.

Type de tâche	Jeux de données intégrés	Remarques
Synthèse de texte	Gigaword, Government Report Dataset
Réponse aux questions	BoolQ, Trivia NaturalQuestions
Classification	Women’s E-Commerce Clothing Reviews
Génération ouverte	T- REx, GRAS, WikiText-2

Types de perturbations

L’évaluation de la robustesse sémantique entraîne l’une des trois perturbations suivantes. Vous pouvez sélectionner le type de perturbation lors de la configuration de la tâche d’évaluation. Les trois perturbations sont adaptées à partir de NL-Augmenter.

Exemple d’entrée de modèle : A quick brown fox jumps over the lazy dog.

Butter Fingers : des fautes de frappe ont été introduites en appuyant sur une touche adjacente du clavier.
```
W quick brmwn fox jumps over the lazy dig
```
Random Upper Case : remplacement de lettres sélectionnées au hasard par des majuscules.
```
A qUick brOwn fox jumps over the lazY dog
```
Whitespace Add Remove : ajout et suppression aléatoires d’espaces blancs dans l’entrée.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valeurs calculées

Cette évaluation mesure le changement de performance entre la sortie du modèle basée sur l’entrée initiale non perturbée et la sortie du modèle basée sur une série de versions perturbées de l’entrée. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez Création d’une tâche d’évaluation automatique de modèles dans Studio.

Le changement de performance est la différence moyenne entre le score de l’entrée d’origine et les scores des entrées perturbées. Les scores mesurés pour évaluer ce changement de performance dépendent du type de tâche :

Résumé

Pour les tâches de synthétisation, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

Delta des scores ROUGE : différence absolue moyenne du score ROUGE pour les entrées d’origine et perturbée. Les scores ROUGE sont calculés de la même manière que le score ROUGE dans Résumé.
Delta des scores METEOR : différence absolue moyenne du score METEOR pour les entrées d’origine et perturbée. Les scores METEOR sont calculés de la même manière que le score METEOR dans Résumé.
Delta BERTScore : différence absolue moyenne entre les entrées BERTScore d'origine et les entrées perturbées. Ils BERTScores sont calculés de la même manière que BERTScore les entréesRésumé.

Réponse aux questions

Pour les tâches de réponses aux questions, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

Delta des scores F1 par mot : différence absolue moyenne des scores F1 par mot pour les entrées d’origine et perturbée. Les scores F1 par mot sont calculés de la même manière que le score F1 par mot dans Réponse aux questions.
Delta des scores de correspondance exacte : différence absolue moyenne des scores de correspondance exacte pour les entrées d’origine et perturbée. Les scores de correspondance exacte sont calculés de la même manière que le score de correspondance exacte dans Réponse aux questions.
Delta des scores de correspondance quasi exacte : différence absolue moyenne des scores de correspondance quasi exacte pour les entrées d’origine et perturbée. Les scores de correspondance quasi exacte sont calculés de la même manière que le score de correspondance quasi exacte dans Réponse aux questions.
Delta des scores de précision par mot : différence absolue moyenne des scores de précision par mot pour les entrées d’origine et perturbée. Les scores de précision par mot sont calculés de la même manière que le score de précision par mot dans Réponse aux questions.
Delta des scores de rappel par mot : différence absolue moyenne des scores de rappel par mot pour les entrées d’origine et perturbée. Les scores de rappel par mot sont calculés de la même manière que le score de rappel par mot dans Réponse aux questions.

Classification

Pour les tâches de classification, la robustesse sémantique mesure l’exactitude lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

Delta des scores d’exactitude : différence absolue moyenne entre les scores d’exactitude pour les entrées d’origine et perturbée. Les scores d’exactitude sont calculés de la même manière que le score d’exactitude dans Classification.

Génération ouverte

Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Ils doivent être créés à l'aide de la fmeval bibliothèque avec GeneralSemanticRobustness. Au lieu de calculer la différence de scores pour une génération ouverte, l’évaluation de la robustesse sémantique mesure la dissemblance des générations de modèles entre l’entrée d’origine et l’entrée perturbée. Cette dissemblance est mesurée à l’aide des stratégies suivantes :

Taux d'erreur des mots (WER) : mesure la différence syntaxique entre les deux générations en calculant le pourcentage de mots qui doivent être modifiés pour convertir les premières générations en deuxième génération. Pour plus d'informations sur le calcul du WER, consultez l'HuggingFace article sur le taux d'erreur Word.
- Par exemple :
  - Entrée 1 : « C’est un chat »
  - Entrée 2 : « C’est un chien »
  - Nombre de mots à modifier : 1/4, soit 25 %
  - WER : 0,25
BERTScore Dissimilarité (BSD) : mesure les différences sémantiques entre les deux générations en les soustrayant de 1. BERTScore Le BSD peut apporter une flexibilité linguistique supplémentaire qui n’est pas incluse dans WER, car des phrases sémantiquement similaires peuvent être vectorisées plus près les unes des autres.
- Par exemple, alors que le WER est le même lorsque la génération 2 et la génération 3 sont comparées individuellement à la génération 1, le score BSD diffère pour tenir compte de la signification sémantique.
  - gen1 (entrée d’origine) : "It is pouring down today"
  - gen2 (entrée perturbée 1) : "It is my birthday today"
  - gen3 (entrée perturbée 2) : "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- Les options suivantes sont prises en charge dans le cadre du GeneralSemanticRobustnessConfigparamètre :
  - model_type_for_bertscore : nom du modèle à utiliser pour la notation. BERTScore Dissimilarité ne prend actuellement en charge que les modèles suivants :
    
    « microsoft/deberta-xlarge-mnli » (par défaut)
    
    "roberta-large-mnli"

Modèles non déterministes

Lorsque la stratégie de génération du modèle n'est pas déterministe, par exemple lorsque la température est différente de zéro, la sortie peut changer même si l'entrée est la même. LLMs Dans ces cas, le signalement des différences entre la sortie du modèle pour les entrées d’origine et les entrées perturbées pourrait indiquer une robustesse artificiellement faible. Pour tenir compte de la stratégie non déterministe, l’évaluation de la robustesse sémantique normalise le score de dissemblance en soustrayant la dissemblance moyenne entre la sortie du modèle en fonction de la même entrée.

max(0,d−dbase)

d: le score de dissimilarité (taux d'erreur des mots ou BERTScore dissimilarité) entre les deux générations.
dbase : dissemblance entre la sortie du modèle sur la même entrée.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Stéréotypage d’invite

Toxicité