Robustez semântica - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Robustez semântica

Avalia o quanto a saída do seu modelo muda como resultado de pequenas alterações que preservam a semântica na entrada. As avaliações do modelo básico (FMEval) medem como a saída do modelo muda como resultado de erros de digitação no teclado, alterações aleatórias em maiúsculas e adições ou exclusões aleatórias de espaços em branco.

O Amazon SageMaker AI suporta a execução de uma avaliação de robustez semântica do Amazon SageMaker Studio ou o uso da biblioteca. fmeval

  • Execução de avaliações no Studio: os trabalhos de avaliação criados no Studio usam padrões pré-selecionados para avaliar rapidamente o desempenho do modelo. Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Elas devem ser criadas usando a biblioteca fmeval.

  • Execução de avaliações usando a biblioteca fmeval: os trabalhos de avaliação criados usando a biblioteca fmeval oferecem mais opções para configurar a avaliação de desempenho do modelo.

Tipos de tarefas compatíveis

A avaliação da robustez semântica é compatível com os seguintes tipos de tarefas e seus conjuntos de dados integrados associados: Os usuários também podem trazer seu próprio conjunto de dados. Por padrão, a SageMaker IA coleta amostras de 100 pontos de dados aleatórios do conjunto de dados para avaliação de toxicidade. Ao usar a fmeval biblioteca, isso pode ser ajustado passando o num_records parâmetro para o evaluate método. Para obter informações sobre como personalizar a avaliação do conhecimento factual usando a fmeval biblioteca, consulte. Personalize seu fluxo de trabalho usando a biblioteca fmeval

Tipo de tarefa Conjuntos de dados integrados Observações
Resumo de texto

Gigaword, conjunto de dados de relatórios governamentais

Perguntas e respostas

BoolQ, TriviaQ NaturalQuestions

Classificação

Avaliações de roupas femininas de e-commerce

Geração aberta

T- REx, NEGRITO, WikiText-2

Tipos de alterações

A avaliação da robustez semântica faz uma das seguintes alterações: Você pode selecionar o tipo de alteração ao configurar o trabalho de avaliação. Todas as três alterações são adaptadas do NL-Augmenter.

Exemplo de entrada de modelo: A quick brown fox jumps over the lazy dog

  • Dedos escorregadios: erros de digitação introduzidos devido ao pressionamento da tecla adjacente do teclado.

    W quick brmwn fox jumps over the lazy dig
  • Maiúsculas aleatórias: alterações de letras selecionadas aleatoriamente para maiúsculas.

    A qUick brOwn fox jumps over the lazY dog
  • Adição e remoção de espaços em branco: adição e remoção aleatórias de espaços em branco da entrada.

    A q uick bro wn fox ju mps overthe lazy dog

Valores computados

Essa avaliação mede a mudança de desempenho entre a saída do modelo com base na entrada original, entrada não alterada e a saída do modelo com base em uma série de versões alteradas da entrada. Para obter informações sobre a estrutura de prompt necessária para a avaliação, consulte Criar um trabalho de avaliação de modelo automático no Studio.

A mudança de desempenho é a diferença média entre a pontuação da entrada original e as pontuações das entradas alteradas. As pontuações medidas para avaliar a mudança de desempenho dependem do tipo de tarefa:

Resumo

Para tarefas de resumo, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

  • Pontuação Delta ROUGE: a diferença média absoluta na pontuação ROUGE para entradas originais e alteradas. As pontuações ROUGE são calculadas da mesma forma que a pontuação do ROUGE em Resumo.

  • Pontuação Delta METEOR: a diferença média absoluta na pontuação METEOR para entradas originais e alteradas. As pontuações METEOR são calculadas da mesma forma que a pontuação METEOR em Resumo.

  • Delta BERTScore: A diferença absoluta média entre BERTScore entradas originais e perturbadas. Eles BERTScores são calculados da mesma forma que o BERTScore inResumo.

Perguntas e respostas

Para tarefas de resposta a perguntas, a robustez semântica mede as seguintes pontuações ao usar a entrada alterada, bem como o Delta de cada pontuação: A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

  • Delta da pontuação F1 em relação às palavras: a diferença média absoluta nas pontuações F1 em relação às palavras para entradas originais e alteradas. As pontuações F1 em relação às palavras são calculadas da mesma forma que a pontuação F1 em relação às palavras em Perguntas e respostas.

  • Delta da pontuação de correspondência exata: a diferença média absoluta nas pontuações da correspondência exata para entradas originais e alteradas. As pontuações de correspondência exata são calculadas da mesma forma que a pontuação de correspondência exata em Perguntas e respostas.

  • Delta da pontuação de correspondência quase exata: a diferença média absoluta nas pontuações de correspondência quase exata para entradas originais e alteradas. As pontuações de correspondência quase exata são calculadas da mesma forma que a pontuação de correspondência quase exata em Perguntas e respostas.

  • Delta da pontuação de precisão em relação às palavras: a diferença média absoluta nas pontuações de precisão em relação às palavras para entradas originais e alteradas. As pontuações de precisão em relação às palavras são calculadas da mesma forma que a pontuação de precisão em relação às palavras em Perguntas e respostas.

  • Delta da pontuação de recordação em relação às palavras: a diferença média absoluta nas pontuações de recordação em relação às palavras para entradas originais e alteradas. As pontuações de recordação em relação às palavras são calculadas da mesma forma que a pontuação de recordação em relação às palavras em Perguntas e respostas.

Classificação

Para tarefas de classificação, a robustez semântica mede a precisão ao usar a entrada alterada, bem como o Delta de cada pontuação. A pontuação Delta representa a diferença média absoluta entre a pontuação da entrada original e as pontuações da entrada alterada.

  • Delta da pontuação de precisão: a diferença média absoluta nas pontuações de precisão para entradas originais e alteradas. As pontuações de precisão são calculadas da mesma forma que a pontuação de precisão em Classificação.

Geração aberta

Avaliações de robustez semântica para geração aberta não podem ser criadas no Studio. Eles devem ser criados usando a fmeval biblioteca com GeneralSemanticRobustness. Em vez de calcular a diferença nas pontuações da geração aberta, a avaliação da robustez semântica avalia a dissimilaridade nas gerações do modelo entre a entrada original e a entrada alterada. Essa dissimilaridade é medida usando as seguintes estratégias:

  • Taxa de erro de palavras (WER): mede a diferença sintática entre as duas gerações calculando a porcentagem de palavras que devem ser alteradas para converter as primeiras gerações na segunda geração. Para obter mais informações sobre o cálculo do WER, consulte o HuggingFace artigo sobre Taxa de erro do Word.

    • Por exemplo:

      • Entrada 1: “Isto é um gato”

      • Entrada 2: “Isto é um cachorro”

      • Número de palavras que devem ser alteradas: 1/4 ou 25%

      • WER: 0,25

  • BERTScore Dissimilaridade (BSD): mede as diferenças semânticas entre as duas gerações subtraindo o de 1. BERTScore O BSD pode levar em conta mais uma flexibilidade linguística que não está incluída no WER porque frases semanticamente semelhantes podem ser incorporadas mais próximas umas das outras.

    • Por exemplo, embora o WER seja o mesmo quando a geração 2 e a geração 3 são comparadas individualmente à geração 1, a pontuação do BSD é diferente para levar em conta o significado semântico.

      • gen1 (entrada original): "It is pouring down today"

      • gen2 (entrada alterada 1): "It is my birthday today"

      • gen3 (entrada alterada 2): "It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • As seguintes opções são suportadas como parte do GeneralSemanticRobustnessConfigparâmetro: 

Modelos não determinísticos

Quando a estratégia de geração do modelo não é determinística, como em LLMs temperaturas diferentes de zero, a saída pode mudar mesmo que a entrada seja a mesma. Nesses casos, relatar diferenças na saída do modelo para as entradas originais e alteradas pode mostrar uma robustez artificialmente baixa. Para explicar a estratégia não determinística, a avaliação da robustez semântica normaliza a pontuação de dissimilaridade subtraindo a dissimilaridade média entre a saída do modelo com base na mesma entrada. 

max(0,d−dbase​)

  • d: a pontuação de dissimilaridade (taxa de erro de palavras ou BERTScore dissimilaridade) entre as duas gerações.

  • dbase​: dissimilaridade entre a saída do modelo com a mesma entrada.