Tipos de tarefas compatíveis Tipos de alterações Valores computados

Robustez semântica

Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. O Foundation Model Evaluations (FMEval) mede como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.

O Amazon SageMaker AI suporta a execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou o uso da biblioteca. fmeval

Execução de avaliações no Studio: os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Elas devem ser criadas usando a biblioteca fmeval.
Execução de avaliações usando a biblioteca fmeval: os trabalhos de avaliação criados usando a biblioteca fmeval oferecem mais opções para configurar a avaliação de desempenho do modelo.

Tipos de tarefas compatíveis

A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas e seus conjuntos de dados integrados associados: Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, a SageMaker IA coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a fmeval biblioteca, isso pode ser ajustado passando o num_records parâmetro para o evaluate método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a fmeval biblioteca, consulte. Personalize seu fluxo de trabalho usando a biblioteca fmeval

Tipo de tarefa	Built-in conjuntos de dados	Observações
Resumo de texto	Gigaword, conjunto de dados de relatórios governamentais
Perguntas e respostas	BoolQ, TriviaQ NaturalQuestions
Classificação	Resenhas de E-Commerce roupas femininas
Open-ended geração	T-REx, OUSADO, WikiText-2

Tipos de alterações

A avaliação da robustez semântica faz uma das seguintes alterações: Você pode selecionar o tipo de alteração ao configurar o trabalho de avaliação. Todas as três perturbações são adaptadas de NL-Augmenter.

Exemplo de entrada de modelo: A quick brown fox jumps over the lazy dog.

Dedos escorregadios: erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado.
```
W quick brmwn fox jumps over the lazy dig
```
Maiúsculas aleatórias: alterações de letras selecionadas aleatoriamente para maiúsculas.
```
A qUick brOwn fox jumps over the lazY dog
```
Adição e remoção de espaços em branco: adição e remoção aleatórias de espaços em branco da entrada.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valores computados

Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original, entrada não alterada e a saída do modelo com base em uma série de versões alteradas da entrada. Para obter informações sobre a estrutura de prompt necessária para a avaliação, consulte Criar um trabalho de avaliação de modelo automático no Studio.

A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas alteradas. As pontuações medidas para avaliar a mudança de desempenho dependem do tipo de tarefa:

Resumo

Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

Pontuação Delta ROUGE: a diferença média absoluta na pontuação ROUGE para entradas originais e alteradas. As pontuações ROUGE são calculadas da mesma forma que a pontuação do ROUGE em Resumo.
Pontuação Delta METEOR: a diferença média absoluta na pontuação METEOR para entradas originais e alteradas. As pontuações METEOR são calculadas da mesma forma que a pontuação METEOR em Resumo.
Delta BERTScore: a diferença média absoluta no BERTScore para entradas originais e alteradas. Os BERTScores são calculados da mesma forma que o BERTScore em Resumo.

Perguntas e respostas

Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

Delta da pontuação F1 em relação às palavras: a diferença média absoluta nas pontuações F1 em relação às palavras para entradas originais e alteradas. As pontuações F1 em relação às palavras são calculadas da mesma forma que a pontuação F1 em relação às palavras em Perguntas e respostas.
Delta da pontuação de correspondência exata: a diferença média absoluta nas pontuações da correspondência exata para entradas originais e alteradas. As pontuações de correspondência exata são calculadas da mesma forma que a pontuação de correspondência exata em Perguntas e respostas.
Delta da pontuação de correspondência quase exata: a diferença média absoluta nas pontuações de correspondência quase exata para entradas originais e alteradas. As pontuações de correspondência quase exata são calculadas da mesma forma que a pontuação de correspondência quase exata em Perguntas e respostas.
Delta da pontuação de precisão em relação às palavras: a diferença média absoluta nas pontuações de precisão em relação às palavras para entradas originais e alteradas. As pontuações de precisão em relação às palavras são calculadas da mesma forma que a pontuação de precisão em relação às palavras em Perguntas e respostas.
Delta da pontuação de recordação em relação às palavras: a diferença média absoluta nas pontuações de recordação em relação às palavras para entradas originais e alteradas. As pontuações de recordação em relação às palavras são calculadas da mesma forma que a pontuação de recordação em relação às palavras em Perguntas e respostas.

Classificação

Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada alterada, bem como o Delta de cada pontuação. A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

Delta da pontuação de precisão: a diferença média absoluta nas pontuações de precisão para entradas originais e alteradas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão em Classificação.

Open-ended geração

Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval biblioteca com GeneralSemanticRobustness. Em vez de calcular a diferença nas pontuações da geração aberta, a avaliação da robustez semântica avalia a dissimilaridade nas gerações do modelo entre a entrada original e a entrada alterada. Essa dissimilaridade é medida usando as seguintes estratégias:

Taxa de erro de palavras (WER): mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo do WER, consulte o HuggingFace artigo sobre Taxa de erro do Word.
- Por exemplo:
  - Entrada 1: “Isto é um gato”
  - Entrada 2: “Isto é um cachorro”
  - Número de palavras que devem ser alteradas: 1/4, ou 25%
  - WER: 0,25
Dissimilaridade do BERTScore (BSD): mede as diferenças semânticas entre as duas gerações subtraindo o BERTScore de 1. O BSD pode levar em conta mais uma flexibilidade linguística que não está incluída no WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras.
- Por exemplo, embora o WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente à geração 1, a pontuação do BSD é diferente para levar em conta o significado semântico.
  - gen1 (entrada original): "It is pouring down today"
  - gen2 (entrada alterada 1): "It is my birthday today"
  - gen3 (entrada alterada 2): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- As seguintes opções são suportadas como parte do GeneralSemanticRobustnessConfigparâmetro:
  - model_type_for_bertscore: nome do modelo a ser usado para pontuação. Atualmente, a dissimilaridade do BERTScore é compatível apenas com os seguintes modelos:
    
    "microsoft/deberta-xlarge-mnli" (padrão)
    
    "roberta-large-mnli"

Non-deterministic modelos

Quando a estratégia de geração do modelo não é determinística, como em LLMs com temperatura diferente de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças na saída do modelo para as entradas originais e alteradas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada.

max(0,d−dbase)

d: a pontuação de dissimilaridade (taxa de erro de palavras ou dissimilaridade de BERTScore) entre as duas gerações.
dbase: dissimilaridade entre a saída do modelo com a mesma entrada.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Estereotipagem de prompts

Toxicidade