

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Robustez semântica
<a name="clarify-semantic-robustness-evaluation"></a>

 Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. O Foundation Model Evaluations (FMEval) mede como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco. 

 O Amazon SageMaker AI suporta a execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou o uso da biblioteca. `fmeval` 
+  **Execução de avaliações no Studio:** os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Elas devem ser criadas usando a biblioteca `fmeval`. 
+  **Execução de avaliações usando a biblioteca `fmeval`:** os trabalhos de avaliação criados usando a biblioteca `fmeval` oferecem mais opções para configurar a avaliação de desempenho do modelo. 

## Tipos de tarefas compatíveis
<a name="clarify-semantic-robustness-evaluation-task"></a>

 A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas e seus conjuntos de dados integrados associados: Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, a SageMaker IA coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a `fmeval` biblioteca, isso pode ser ajustado passando o `num_records` parâmetro para o `evaluate` método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a `fmeval` biblioteca, consulte. [Personalize seu fluxo de trabalho usando a biblioteca `fmeval`](clarify-foundation-model-evaluate-auto-lib-custom.md) 


|  Tipo de tarefa  |  Built-in conjuntos de dados  |  Observações  | 
| --- | --- | --- | 
|  Resumo de texto  | [Gigaword](https://huggingface.co/datasets/gigaword?row=3), [conjunto de dados de relatórios governamentais](https://gov-report-data.github.io/) |   | 
|  Perguntas e respostas  | [https://github.com/google-research-datasets/boolean-questions](https://github.com/google-research-datasets/boolean-questions) |   | 
|  Classificação  | [Resenhas de E-Commerce roupas femininas](https://www.kaggle.com/datasets/nicapotato/womens-ecommerce-clothing-reviews) |   | 
|  Open-ended geração  | [T-REx](https://hadyelsahar.github.io/t-rex/), [OUSADO](https://github.com/amazon-science/bold), [WikiText-2](https://huggingface.co/datasets/wikitext/viewer/wikitext-2) |   | 

## Tipos de alterações
<a name="clarify-semantic-robustness-evaluation-perturbation"></a>

 A avaliação da robustez semântica faz uma das seguintes alterações: Você pode selecionar o tipo de alteração ao configurar o trabalho de avaliação. Todas as três perturbações são adaptadas de NL-Augmenter. 

 Exemplo de entrada de modelo: `A quick brown fox jumps over the lazy dog`.  
+  [Dedos escorregadios](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/butter_fingers_perturbation): erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado. 

  ```
  W quick brmwn fox jumps over the lazy dig
  ```
+  [Maiúsculas aleatórias](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/random_upper_transformation/): alterações de letras selecionadas aleatoriamente para maiúsculas. 

  ```
  A qUick brOwn fox jumps over the lazY dog
  ```
+  [Adição e remoção de espaços em branco](https://github.com/GEM-benchmark/NL-Augmenter/blob/c591130760b453b3ad09516849dfc26e721eeb24/nlaugmenter/transformations/whitespace_perturbation): adição e remoção aleatórias de espaços em branco da entrada. 

  ```
  A q uick bro wn fox ju mps overthe lazy dog
  ```

## Valores computados
<a name="clarify-semantic-robustness-evaluation-values"></a>

 Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original, entrada não alterada e a saída do modelo com base em uma série de versões alteradas da entrada. Para obter informações sobre a estrutura de prompt necessária para a avaliação, consulte [Criar um trabalho de avaliação de modelo automático no Studio](clarify-foundation-model-evaluate-auto-ui.md). 

 A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas alteradas. As pontuações medidas para avaliar a mudança de desempenho dependem do tipo de tarefa:

### Resumo
<a name="clarify-semantic-robustness-evaluation-summarization"></a>

 Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada. 
+  **Pontuação Delta ROUGE:** a diferença média absoluta na pontuação ROUGE para entradas originais e alteradas. As pontuações ROUGE são calculadas da mesma forma que a pontuação do ROUGE em [Resumo](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 
+  **Pontuação Delta METEOR:** a diferença média absoluta na pontuação METEOR para entradas originais e alteradas. As pontuações METEOR são calculadas da mesma forma que a pontuação METEOR em [Resumo](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 
+  **Delta BERTScore:** a diferença média absoluta no BERTScore para entradas originais e alteradas. Os BERTScores são calculados da mesma forma que o BERTScore em [Resumo](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-summarization). 

### Perguntas e respostas
<a name="clarify-semantic-robustness-evaluation-qa"></a>

 Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada. 
+  **Delta da pontuação F1 em relação às palavras:** a diferença média absoluta nas pontuações F1 em relação às palavras para entradas originais e alteradas. As pontuações F1 em relação às palavras são calculadas da mesma forma que a pontuação F1 em relação às palavras em [Perguntas e respostas](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta da pontuação de correspondência exata:** a diferença média absoluta nas pontuações da correspondência exata para entradas originais e alteradas. As pontuações de correspondência exata são calculadas da mesma forma que a pontuação de correspondência exata em [Perguntas e respostas](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa).
+  **Delta da pontuação de correspondência quase exata:** a diferença média absoluta nas pontuações de correspondência quase exata para entradas originais e alteradas. As pontuações de correspondência quase exata são calculadas da mesma forma que a pontuação de correspondência quase exata em [Perguntas e respostas](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta da pontuação de precisão em relação às palavras:** a diferença média absoluta nas pontuações de precisão em relação às palavras para entradas originais e alteradas. As pontuações de precisão em relação às palavras são calculadas da mesma forma que a pontuação de precisão em relação às palavras em [Perguntas e respostas](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 
+  **Delta da pontuação de recordação em relação às palavras:** a diferença média absoluta nas pontuações de recordação em relação às palavras para entradas originais e alteradas. As pontuações de recordação em relação às palavras são calculadas da mesma forma que a pontuação de recordação em relação às palavras em [Perguntas e respostas](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-qa). 

### Classificação
<a name="clarify-semantic-robustness-evaluation-classification"></a>

 Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada alterada, bem como o Delta de cada pontuação. A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada. 
+  **Delta da pontuação de precisão:** a diferença média absoluta nas pontuações de precisão para entradas originais e alteradas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão em [Classificação](clarify-accuracy-evaluation.md#clarify-accuracy-evaluation-classification).

### Open-ended geração
<a name="clarify-semantic-robustness-evaluation-open-ended"></a>

Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a `fmeval` biblioteca com [GeneralSemanticRobustness](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L81C7-L81C32). Em vez de calcular a diferença nas pontuações da geração aberta, a avaliação da robustez semântica avalia a dissimilaridade nas gerações do modelo entre a entrada original e a entrada alterada. Essa dissimilaridade é medida usando as seguintes estratégias: 
+ ***[Taxa de erro de palavras](https://huggingface.co/spaces/evaluate-metric/wer)** (WER):* mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo do WER, consulte o [HuggingFace artigo sobre Taxa de erro do Word](https://huggingface.co/spaces/evaluate-metric/wer). 
  +  Por exemplo: 
    +  **Entrada 1**: “Isto é um gato” 
    +  **Entrada 2**: “Isto é um cachorro” 
    +  **Número de palavras que devem ser alteradas**: 1/4, ou 25% 
    +  **WER**: 0,25 
+ **Dissimilaridade do BERTScore (BSD):** mede as diferenças semânticas entre as duas gerações subtraindo o BERTScore de 1. O BSD pode levar em conta mais uma flexibilidade linguística que não está incluída no WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras. 
  +  Por exemplo, embora o WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente à geração 1, a pontuação do BSD é diferente para levar em conta o significado semântico. 
    +  **gen1 (entrada original)**: `"It is pouring down today"` 
    +  **gen2 (entrada alterada 1)**: `"It is my birthday today"` 
    + **gen3 (entrada alterada 2)**: `"It is very rainy today"` 
    +  `WER(gen1, gen2)=WER(gen2, gen3)=0.4` 
    +  `BERTScore(gen1, gen2)=0.67` 
    +  `BERTScore(gen1, gen3)=0.92` 
    +  `BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33` 
    +  `BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08` 
  +  As seguintes opções são suportadas como parte do [GeneralSemanticRobustnessConfig](https://github.com/aws/fmeval/blob/91e675be24800a262faf8bf6e59f07522b5314ea/src/fmeval/eval_algorithms/general_semantic_robustness.py#L54C7-L54C38)parâmetro:  
    +  `model_type_for_bertscore`: nome do modelo a ser usado para pontuação. Atualmente, a dissimilaridade do BERTScore é compatível apenas com os seguintes modelos: 
      +  "`[microsoft/deberta-xlarge-mnli](https://github.com/microsoft/DeBERTa)`" (padrão) 
      +  "`[roberta-large-mnli](https://github.com/facebookresearch/fairseq/tree/main/examples/roberta)`" 

 **Non-deterministic modelos** 

 Quando a estratégia de geração do modelo não é determinística, como em LLMs com temperatura diferente de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças na saída do modelo para as entradas originais e alteradas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada.  

`max(0,d−dbase​)`
+  `d`: a pontuação de dissimilaridade (taxa de erro de palavras ou dissimilaridade de BERTScore) entre as duas gerações.
+  `dbase​`: dissimilaridade entre a saída do modelo com a mesma entrada. 