

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Robustesse sémantique
<a name="clarify-semantic-robustness-evaluation"></a>

 Évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l’entrée. Foundation Model Evaluations (FMEval) mesure la modification de la sortie de votre modèle en raison de fautes de frappe, de modifications aléatoires de la casse et d’ajouts ou de suppressions aléatoires d’espaces blancs. 

 Amazon SageMaker AI prend en charge l'exécution d'une évaluation de la robustesse sémantique à partir d'Amazon SageMaker Studio ou à l'aide de la `fmeval` bibliothèque. 
+  **Exécution d’évaluations dans Studio :** les tâches d’évaluation créées dans Studio utilisent des valeurs par défaut présélectionnées pour évaluer rapidement les performances du modèle. Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Elles doivent être créées à l’aide de la bibliothèque `fmeval`. 
+  **Exécution d’évaluations à l’aide de la bibliothèque `fmeval` :** les tâches d’évaluation créées à l’aide de la bibliothèque `fmeval` offrent des options étendues pour configurer l’évaluation des performances du modèle. 

## Type de tâche pris en charge
<a name="clarify-semantic-robustness-evaluation-task"></a>

 L’évaluation de la robustesse sémantique est prise en charge pour les types de tâches suivants avec leurs jeux de données intégrés associés. Les utilisateurs peuvent également apporter leur propre jeu de données. Par défaut, l' SageMaker IA échantillonne 100 points de données aléatoires à partir de l'ensemble de données pour l'évaluation de la toxicité. Lorsque vous utilisez la `fmeval` bibliothèque, cela peut être ajusté en passant le `num_records` paramètre à la `evaluate` méthode. Pour plus d'informations sur la personnalisation de l'évaluation des connaissances factuelles à l'aide de la `fmeval` bibliothèque, voir[Personnalisez votre flux de travail à l'aide de la `bibliothèque fmeval`](clarify-foundation-model-evaluate-auto-lib-custom.md). 


|  Type de tâche  |  Built-in ensembles de données  |  Remarques  | 
| --- | --- | --- | 
|  Synthèse de texte  | [Gigaword](https://huggingface.co/datasets/gigaword?row=3), [Government Report Dataset](https://gov-report-data.github.io/) |   | 
|  Réponse aux questions  | [https://github.com/google-research-datasets/boolean-questions](https://github.com/google-research-datasets/boolean-questions) |   | 
|  Classification  | [Avis sur les E-Commerce vêtements pour femmes](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) |   | 
|  Open-ended génération  | [T-REx](https://hadyelsahar.github.io/t-rex/), [AUDACIEUX](https://github.com/amazon-science/bold), [WikiText-2](https://huggingface.co/datasets/wikitext/viewer/wikitext-2) |   | 

## Types de perturbations
<a name="clarify-semantic-robustness-evaluation-perturbation"></a>

 L’évaluation de la robustesse sémantique entraîne l’une des trois perturbations suivantes. Vous pouvez sélectionner le type de perturbation lors de la configuration de la tâche d’évaluation. Les trois perturbations sont adaptées à partir de NL-Augmenter. 

 Exemple d’entrée de modèle : `A quick brown fox jumps over the lazy dog`.  
+  [Butter Fingers](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/butter_fingers_perturbation) : des fautes de frappe ont été introduites en appuyant sur une touche adjacente du clavier. 

  ```
  W quick brmwn fox jumps over the lazy dig
  ```
+  [Random Upper Case](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/random_upper_transformation/) : remplacement de lettres sélectionnées au hasard par des majuscules. 

  ```
  A qUick brOwn fox jumps over the lazY dog
  ```
+  [Whitespace Add Remove](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/whitespace_perturbation) : ajout et suppression aléatoires d’espaces blancs dans l’entrée. 

  ```
  A q uick bro wn fox ju mps overthe lazy dog
  ```

## Valeurs calculées
<a name="clarify-semantic-robustness-evaluation-values"></a>

 Cette évaluation mesure le changement de performance entre la sortie du modèle basée sur l’entrée initiale non perturbée et la sortie du modèle basée sur une série de versions perturbées de l’entrée. Pour en savoir plus sur la structure d’invite requise pour l’évaluation, consultez [Création d’une tâche d’évaluation automatique de modèles dans Studio](clarify-foundation-model-evaluate-auto-ui.md). 

 Le changement de performance est la différence moyenne entre le score de l’entrée d’origine et les scores des entrées perturbées. Les scores mesurés pour évaluer ce changement de performance dépendent du type de tâche :

### Résumé
<a name="clarify-semantic-robustness-evaluation-summarization"></a>

 Pour les tâches de synthétisation, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée. 
+  **Delta des scores ROUGE :** différence absolue moyenne du score ROUGE pour les entrées d’origine et perturbée. Les scores ROUGE sont calculés de la même manière que le score ROUGE dans [Résumé](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 
+  **Delta des scores METEOR :** différence absolue moyenne du score METEOR pour les entrées d’origine et perturbée. Les scores METEOR sont calculés de la même manière que le score METEOR dans [Résumé](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 
+  **Delta des scores BERTScore :** différence absolue moyenne du score BERTScore pour les entrées d’origine et perturbée. Les scores BERTScore sont calculés de la même manière que le score BERTScore dans [Résumé](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 

### Réponse aux questions
<a name="clarify-semantic-robustness-evaluation-qa"></a>

 Pour les tâches de réponses aux questions, la robustesse sémantique mesure les scores suivants lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée. 
+  **Delta des scores F1 par mot :** différence absolue moyenne des scores F1 par mot pour les entrées d’origine et perturbée. Les scores F1 par mot sont calculés de la même manière que le score F1 par mot dans [Réponse aux questions](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta des scores de correspondance exacte :** différence absolue moyenne des scores de correspondance exacte pour les entrées d’origine et perturbée. Les scores de correspondance exacte sont calculés de la même manière que le score de correspondance exacte dans [Réponse aux questions](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa).
+  **Delta des scores de correspondance quasi exacte :** différence absolue moyenne des scores de correspondance quasi exacte pour les entrées d’origine et perturbée. Les scores de correspondance quasi exacte sont calculés de la même manière que le score de correspondance quasi exacte dans [Réponse aux questions](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta des scores de précision par mot :** différence absolue moyenne des scores de précision par mot pour les entrées d’origine et perturbée. Les scores de précision par mot sont calculés de la même manière que le score de précision par mot dans [Réponse aux questions](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta des scores de rappel par mot :** différence absolue moyenne des scores de rappel par mot pour les entrées d’origine et perturbée. Les scores de rappel par mot sont calculés de la même manière que le score de rappel par mot dans [Réponse aux questions](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 

### Classification
<a name="clarify-semantic-robustness-evaluation-classification"></a>

 Pour les tâches de classification, la robustesse sémantique mesure l’exactitude lors de l’utilisation de l’entrée perturbée, ainsi que le delta pour chaque score. Le delta des scores représente la différence absolue moyenne entre le score de l’entrée d’origine et les scores de l’entrée perturbée. 
+  **Delta des scores d’exactitude :** différence absolue moyenne entre les scores d’exactitude pour les entrées d’origine et perturbée. Les scores d’exactitude sont calculés de la même manière que le score d’exactitude dans [Classification](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-classification).

### Open-ended génération
<a name="clarify-semantic-robustness-evaluation-open-ended"></a>

Les évaluations de robustesse sémantique pour la génération ouverte ne peuvent pas être créées dans Studio. Ils doivent être créés à l'aide de la `fmeval` bibliothèque avec [GeneralSemanticRobustness](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L81C7-L81C32). Au lieu de calculer la différence de scores pour une génération ouverte, l’évaluation de la robustesse sémantique mesure la dissemblance des générations de modèles entre l’entrée d’origine et l’entrée perturbée. Cette dissemblance est mesurée à l’aide des stratégies suivantes : 
+ ***[Taux d'erreur des mots](https://huggingface.co/spaces/evaluate-metric/wer)** (WER) :* mesure la différence syntaxique entre les deux générations en calculant le pourcentage de mots qui doivent être modifiés pour convertir les premières générations en deuxième génération. Pour plus d'informations sur le calcul du WER, consultez l'[HuggingFace article sur le taux d'erreur Word](https://huggingface.co/spaces/evaluate-metric/wer). 
  +  Par exemple : 
    +  **Entrée 1** : « C’est un chat » 
    +  **Entrée 2** : « C’est un chien » 
    +  **Nombre de mots qui doivent être modifiés** : 1/4, soit 25 % 
    +  **WER** : 0,25 
+ **Dissemblance BERTScore (BSD) :** mesure les différences sémantiques entre les deux générations en soustrayant le score BERTScore de 1. Le BSD peut apporter une flexibilité linguistique supplémentaire qui n’est pas incluse dans WER, car des phrases sémantiquement similaires peuvent être vectorisées plus près les unes des autres. 
  +  Par exemple, alors que le WER est le même lorsque la génération 2 et la génération 3 sont comparées individuellement à la génération 1, le score BSD diffère pour tenir compte de la signification sémantique. 
    +  **gen1 (entrée d’origine)** : `"It is pouring down today"` 
    +  **gen2 (entrée perturbée 1)** : `"It is my birthday today"` 
    + **gen3 (entrée perturbée 2)** : `"It is very rainy today"` 
    +  `WER(gen1, gen2)=WER(gen2, gen3)=0.4` 
    +  `BERTScore(gen1, gen2)=0.67` 
    +  `BERTScore(gen1, gen3)=0.92` 
    +  `BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33` 
    +  `BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08` 
  +  Les options suivantes sont prises en charge dans le cadre du [GeneralSemanticRobustnessConfig](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L54C7-L54C38)paramètre :  
    +  `model_type_for_bertscore` : nom du modèle à utiliser pour la notation. Actuellement, la dissemblance BERTScore prend en charge uniquement les modèles suivants : 
      +  « `[microsoft/deberta-xlarge-mnli](https://github.com/microsoft/DeBERTa)` » (par défaut) 
      +  "`[roberta-large-mnli](https://github.com/facebookresearch/fairseq/tree/main/examples/roberta)`" 

 Modèles **Non-deterministic  ** 

 Lorsque la stratégie de génération de modèles n’est pas déterministe, comme dans les LLM avec une température différente de zéro, la sortie peut changer même si l’entrée est la même. Dans ces cas, le signalement des différences entre la sortie du modèle pour les entrées d’origine et les entrées perturbées pourrait indiquer une robustesse artificiellement faible. Pour tenir compte de la stratégie non déterministe, l’évaluation de la robustesse sémantique normalise le score de dissemblance en soustrayant la dissemblance moyenne entre la sortie du modèle en fonction de la même entrée.  

`max(0,d−dbase​)`
+  `d` : le score de dissemblance (taux d’erreur des mots ou dissemblance BERTScore) entre les deux générations.
+  `dbase​` : dissemblance entre la sortie du modèle sur la même entrée. 