View a markdown version of this page

Robustesse sémantique - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Robustesse sémantique

Évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l’entrée. Foundation Model Evaluations (FMEval) mesure la modification de la sortie de votre modèle en raison de fautes de frappe, de modifications aléatoires de la casse et d’ajouts ou de suppressions aléatoires d’espaces blancs.

Amazon SageMaker AI prend en charge l'exécution d'une évaluation de la robustesse sémantique à partir d'Amazon SageMaker Studio ou à l'aide de la fmeval bibliothèque.

  • Exécution d’évaluations dans Studio : les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle. Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Elles doivent être créées à l’aide de la bibliothèque fmeval.

  • Exécution d’évaluations à l’aide de la bibliothèque fmeval : les tâches d’évaluation créées à l’aide de la bibliothèque fmeval offrent des options étendues pour configurer l’évaluation des performances du modèle.

Type de tâche pris en charge

L’évaluation de la robustesse sémantique est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les utilisateurs peuvent également apporter leur propre jeu de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour l'évaluation de la toxicité. Lorsque vous utilisez la fmeval bibliothèque, cela peut être ajusté en passant le num_records paramètre à la evaluate méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la fmeval bibliothèque, voirPersonnalisez votre flux de travail à l'aide de la bibliothèque fmeval.

Type de tâche Built-in ensembles de données Remarques
Synthèse de texte

Gigaword, Government Report Dataset

Réponse aux questions

BoolQ, Trivia NaturalQuestions

Classification

Avis sur les E-Commerce vêtements pour femmes

Open-ended génération

T-REx, AUDACIEUX, WikiText-2

Types de perturbations

L’évaluation de la robustesse sémantique entraîne l’une des trois perturbations suivantes. Vous pouvez sélectionner le type de perturbation lors de la configuration de la tâche d’évaluation. Les trois perturbations sont adaptées à partir de NL-Augmenter.

Exemple d’entrée de modèle : A quick brown fox jumps over the lazy dog

  • Butter Fingers : des fautes de frappe ont été introduites en appuyant sur une touche adjacente du clavier.

    W quick brmwn fox jumps over the lazy dig
  • Random Upper Case : remplacement de lettres sélectionnées au hasard par des majuscules.

    A qUick brOwn fox jumps over the lazY dog
  • Whitespace Add Remove : ajout et suppression aléatoires d’espaces blancs dans l’entrée.

    A q uick bro wn fox ju mps overthe lazy dog

Valeurs calculées

Cette évaluation mesure le changement de performance entre la sortie du modèle basée sur l’entrée initiale non perturbée et la sortie du modèle basée sur une série de versions perturbées de l’entrée. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez Création d’une tâche d’évaluation automatique de modèles dans Studio.

Le changement de performance est la différence moyenne entre le score de l’entrée d’origine et les scores des entrées perturbées. Les scores mesurés pour évaluer ce changement de performance dépendent du type de tâche :

Résumé

Pour les tâches de synthétisation, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

  • Delta des scores ROUGE : différence absolue moyenne du score ROUGE pour les entrées d’origine et perturbée. Les scores ROUGE sont calculés de la même manière que le score ROUGE dans Résumé.

  • Delta des scores METEOR : différence absolue moyenne du score METEOR pour les entrées d’origine et perturbée. Les scores METEOR sont calculés de la même manière que le score METEOR dans Résumé.

  • Delta des scores BERTScore : différence absolue moyenne du score BERTScore pour les entrées d’origine et perturbée. Les scores BERTScore sont calculés de la même manière que le score BERTScore dans Résumé.

Réponse aux questions

Pour les tâches de réponses aux questions, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

  • Delta des scores F1 par mot : différence absolue moyenne des scores F1 par mot pour les entrées d’origine et perturbée. Les scores F1 par mot sont calculés de la même manière que le score F1 par mot dans Réponse aux questions.

  • Delta des scores de correspondance exacte : différence absolue moyenne des scores de correspondance exacte pour les entrées d’origine et perturbée. Les scores de correspondance exacte sont calculés de la même manière que le score de correspondance exacte dans Réponse aux questions.

  • Delta des scores de correspondance quasi exacte : différence absolue moyenne des scores de correspondance quasi exacte pour les entrées d’origine et perturbée. Les scores de correspondance quasi exacte sont calculés de la même manière que le score de correspondance quasi exacte dans Réponse aux questions.

  • Delta des scores de précision par mot : différence absolue moyenne des scores de précision par mot pour les entrées d’origine et perturbée. Les scores de précision par mot sont calculés de la même manière que le score de précision par mot dans Réponse aux questions.

  • Delta des scores de rappel par mot : différence absolue moyenne des scores de rappel par mot pour les entrées d’origine et perturbée. Les scores de rappel par mot sont calculés de la même manière que le score de rappel par mot dans Réponse aux questions.

Classification

Pour les tâches de classification, la robustesse sémantique mesure l’exactitude lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée.

  • Delta des scores d’exactitude : différence absolue moyenne entre les scores d’exactitude pour les entrées d’origine et perturbée. Les scores d’exactitude sont calculés de la même manière que le score d’exactitude dans Classification.

Open-ended génération

Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Ils doivent être créés à l'aide de la fmeval bibliothèque avec GeneralSemanticRobustness. Au lieu de calculer la différence de scores pour une génération ouverte, l’évaluation de la robustesse sémantique mesure la dissemblance des générations de modèles entre l’entrée d’origine et l’entrée perturbée. Cette dissemblance est mesurée à l’aide des stratégies suivantes :

  • Taux d'erreur des mots (WER) : mesure la différence syntaxique entre les deux générations en calculant le pourcentage de mots qui doivent être modifiés pour convertir les premières générations en deuxième génération. Pour plus d'informations sur le calcul du WER, consultez l'HuggingFace article sur le taux d'erreur Word.

    • Par exemple :

      • Entrée 1 : « C’est un chat »

      • Entrée 2 : « C’est un chien »

      • Nombre de mots qui doivent être modifiés : 1/4, soit 25 %

      • WER : 0,25

  • Dissemblance BERTScore (BSD) : mesure les différences sémantiques entre les deux générations en soustrayant le score BERTScore de 1. Le BSD peut apporter une flexibilité linguistique supplémentaire qui n’est pas incluse dans WER, car des phrases sémantiquement similaires peuvent être vectorisées plus près les unes des autres.

    • Par exemple, alors que le WER est le même lorsque la génération 2 et la génération 3 sont comparées individuellement à la génération 1, le score BSD diffère pour tenir compte de la signification sémantique.

      • gen1 (entrée d’origine) : "It is pouring down today"

      • gen2 (entrée perturbée 1) : "It is my birthday today"

      • gen3 (entrée perturbée 2) : "It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • Les options suivantes sont prises en charge dans le cadre du GeneralSemanticRobustnessConfigparamètre : 

      • model_type_for_bertscore : nom du modèle à utiliser pour la notation. Actuellement, la dissemblance BERTScore prend en charge uniquement les modèles suivants :

Modèles Non-deterministic  

Lorsque la stratégie de génération de modèles n’est pas déterministe, comme dans les LLM avec une température différente de zéro, la sortie peut changer même si l’entrée est la même. Dans ces cas, le signalement des différences entre la sortie du modèle pour les entrées d’origine et les entrées perturbées pourrait indiquer une robustesse artificiellement faible. Pour tenir compte de la stratégie non déterministe, l’évaluation de la robustesse sémantique normalise le score de dissemblance en soustrayant la dissemblance moyenne entre la sortie du modèle en fonction de la même entrée. 

max(0,d−dbase​)

  • d : le score de dissemblance (taux d’erreur des mots ou dissemblance BERTScore) entre les deux générations.

  • dbase​ : dissemblance entre la sortie du modèle sur la même entrée.