As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Robustez semântica
Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. As avaliações do modelo básico (FMEval) medem como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.
O Amazon SageMaker AI suporta a execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou o uso da biblioteca. fmeval
-
Execução de avaliações no Studio: os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Elas devem ser criadas usando a biblioteca
fmeval. -
Execução de avaliações usando a biblioteca
fmeval: os trabalhos de avaliação criados usando a bibliotecafmevaloferecem mais opções para configurar a avaliação de desempenho do modelo.
Tipos de tarefas compatíveis
A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas e seus conjuntos de dados integrados associados: Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, a SageMaker IA coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a fmeval biblioteca, isso pode ser ajustado passando o num_records parâmetro para o evaluate método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a fmeval biblioteca, consulte. Personalize seu fluxo de trabalho usando a biblioteca fmeval
| Tipo de tarefa | Conjuntos de dados integrados | Observações |
|---|---|---|
| Resumo de texto | ||
| Perguntas e respostas | ||
| Classificação | ||
| Geração aberta |
Tipos de alterações
A avaliação da robustez semântica faz uma das seguintes alterações: Você pode selecionar o tipo de alteração ao configurar o trabalho de avaliação. Todas as três alterações são adaptadas do NL-Augmenter.
Exemplo de entrada de modelo: A quick brown fox jumps over the lazy dog.
-
Dedos escorregadios
: erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado. W quick brmwn fox jumps over the lazy dig -
Maiúsculas aleatórias
: alterações de letras selecionadas aleatoriamente para maiúsculas. A qUick brOwn fox jumps over the lazY dog -
Adição e remoção de espaços em branco
: adição e remoção aleatórias de espaços em branco da entrada. A q uick bro wn fox ju mps overthe lazy dog
Valores computados
Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original, entrada não alterada e a saída do modelo com base em uma série de versões alteradas da entrada. Para obter informações sobre a estrutura de prompt necessária para a avaliação, consulte Criar um trabalho de avaliação de modelo automático no Studio.
A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas alteradas. As pontuações medidas para avaliar a mudança de desempenho dependem do tipo de tarefa:
Resumo
Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.
-
Pontuação Delta ROUGE: a diferença média absoluta na pontuação ROUGE para entradas originais e alteradas. As pontuações ROUGE são calculadas da mesma forma que a pontuação do ROUGE em Resumo.
-
Pontuação Delta METEOR: a diferença média absoluta na pontuação METEOR para entradas originais e alteradas. As pontuações METEOR são calculadas da mesma forma que a pontuação METEOR em Resumo.
-
Delta BERTScore: A diferença absoluta média entre BERTScore entradas originais e perturbadas. Eles BERTScores são calculados da mesma forma que o BERTScore inResumo.
Perguntas e respostas
Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.
-
Delta da pontuação F1 em relação às palavras: a diferença média absoluta nas pontuações F1 em relação às palavras para entradas originais e alteradas. As pontuações F1 em relação às palavras são calculadas da mesma forma que a pontuação F1 em relação às palavras em Perguntas e respostas.
-
Delta da pontuação de correspondência exata: a diferença média absoluta nas pontuações da correspondência exata para entradas originais e alteradas. As pontuações de correspondência exata são calculadas da mesma forma que a pontuação de correspondência exata em Perguntas e respostas.
-
Delta da pontuação de correspondência quase exata: a diferença média absoluta nas pontuações de correspondência quase exata para entradas originais e alteradas. As pontuações de correspondência quase exata são calculadas da mesma forma que a pontuação de correspondência quase exata em Perguntas e respostas.
-
Delta da pontuação de precisão em relação às palavras: a diferença média absoluta nas pontuações de precisão em relação às palavras para entradas originais e alteradas. As pontuações de precisão em relação às palavras são calculadas da mesma forma que a pontuação de precisão em relação às palavras em Perguntas e respostas.
-
Delta da pontuação de recordação em relação às palavras: a diferença média absoluta nas pontuações de recordação em relação às palavras para entradas originais e alteradas. As pontuações de recordação em relação às palavras são calculadas da mesma forma que a pontuação de recordação em relação às palavras em Perguntas e respostas.
Classificação
Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada alterada, bem como o Delta de cada pontuação. A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.
-
Delta da pontuação de precisão: a diferença média absoluta nas pontuações de precisão para entradas originais e alteradas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão em Classificação.
Geração aberta
Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval biblioteca com GeneralSemanticRobustness
-
Taxa de erro de palavras
(WER): mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo do WER, consulte o HuggingFace artigo sobre Taxa de erro do Word . -
Por exemplo:
-
Entrada 1: “Isto é um gato”
-
Entrada 2: “Isto é um cachorro”
-
Número de palavras que devem ser alteradas: 1/4 ou 25%
-
WER: 0,25
-
-
-
BERTScore Dissimilaridade (BSD): mede as diferenças semânticas entre as duas gerações subtraindo o de 1. BERTScore O BSD pode levar em conta mais uma flexibilidade linguística que não está incluída no WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras.
-
Por exemplo, embora o WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente à geração 1, a pontuação do BSD é diferente para levar em conta o significado semântico.
-
gen1 (entrada original):
"It is pouring down today" -
gen2 (entrada alterada 1):
"It is my birthday today" -
gen3 (entrada alterada 2):
"It is very rainy today" -
WER(gen1, gen2)=WER(gen2, gen3)=0.4 -
BERTScore(gen1, gen2)=0.67 -
BERTScore(gen1, gen3)=0.92 -
BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33 -
BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
-
-
As seguintes opções são suportadas como parte do GeneralSemanticRobustnessConfig
parâmetro: -
model_type_for_bertscore: nome do modelo a ser usado para pontuação. BERTScore Atualmente, a dissimilaridade suporta apenas os seguintes modelos:-
"
microsoft/deberta-xlarge-mnli" (padrão)
-
-
-
Modelos não determinísticos
Quando a estratégia de geração do modelo não é determinística, como em LLMs temperaturas diferentes de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças na saída do modelo para as entradas originais e alteradas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada.
max(0,d−dbase)
-
d: a pontuação de dissimilaridade (taxa de erro de palavras ou BERTScore dissimilaridade) entre as duas gerações. -
dbase: dissimilaridade entre a saída do modelo com a mesma entrada.