Tipo di attività supportato Tipi di perturbazioni Valori calcolati

Robustezza semantica

Valuta in che misura l'output del modello cambia a seguito di piccole modifiche nell'input che preservano la semantica. Foundation Model FMEval Evaluations () misura come cambia l'output del modello a seguito di errori di battitura della tastiera, modifiche casuali alle lettere maiuscole e aggiunte o eliminazioni casuali di spazi bianchi.

Amazon SageMaker AI supporta l'esecuzione di una valutazione della robustezza semantica da Amazon SageMaker Studio o l'utilizzo della libreria. fmeval

Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni predefinite per valutare rapidamente le prestazioni del modello. Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere create utilizzando la libreria fmeval.
Esecuzione di valutazioni con la libreria fmeval: i job di valutazione creati utilizzando la libreria fmeval offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione della robustezza semantica è supportata per i seguenti tipi di attività a cui sono associati i relativi set di dati integrati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per la valutazione della tossicità. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizzazione del flusso di lavoro con la libreria fmeval

Tipo di attività	Set di dati integrati	Note
Riepilogo del testo	Gigaword, Set di dati di report governativi
Risposta alle domande	BoolQ, TriviaA NaturalQuestions
Classificazione	Women’s E-Commerce Clothing Reviews
Generazione aperta	T -, GRASSETTO, -2 REx WikiText

Tipi di perturbazioni

La valutazione della robustezza semantica esegue una delle tre perturbazioni seguenti. Puoi selezionare il tipo di perturbazione durante la configurazione del processo di valutazione. Tutte e tre le perturbazioni sono adattate da NL-Augmenter.

Esempio di input del modello: A quick brown fox jumps over the lazy dog.

Digitazione imprecisa: errori di battitura dovuti pressione del tasto della tastiera adiacente.
```
W quick brmwn fox jumps over the lazy dig
```
Maiuscole casuali: modifica di lettere casuali in maiuscole.
```
A qUick brOwn fox jumps over the lazY dog
```
Aggiunta/rimozione di spazi: aggiunta e rimozione casuali di spazi dall’input.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valori calcolati

Questa valutazione misura la variazione delle prestazioni tra l’output del modello basato sull’input originale e imperturbato e l’output del modello basato su una serie di versioni perturbate dell’input. Per informazioni sulla struttura del prompt richiesta per la valutazione, consulta Creazione di un processo di valutazione automatica del modello in Studio.

La variazione delle prestazioni è la differenza media tra il punteggio dell’input originale e i punteggi degli input perturbati. I punteggi misurati per valutare questa variazione delle prestazioni dipendono dal tipo di attività:

Riassunto

Per le attività di sintesi, la robustezza semantica calcola i seguenti punteggi quando viene utilizzato l’input perturbato, oltre al Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza assoluta media tra il punteggio dell’input originale e i punteggi dell’input perturbato.

Punteggio ROUGE Delta: la differenza assoluta media nel punteggio ROUGE per gli input originali e quelli perturbati. I punteggi ROUGE vengono calcolati allo stesso modo del punteggio ROUGE in Riassunto.
Punteggio METEOR Delta: la differenza assoluta media nel punteggio METEOR per gli input originali e quelli perturbati. I punteggi METEOR vengono calcolati allo stesso modo del punteggio METEOR in Riassunto.
Delta BERTScore: La differenza assoluta media tra BERTScore gli ingressi originali e quelli perturbati. BERTScores Vengono calcolati nello stesso modo in cui vengono calcolati. BERTScore Riassunto

Risposta alle domande

Per le attività di risposta alle domande, la robustezza semantica calcola i seguenti punteggi quando viene utilizzato l’input perturbato, oltre al Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza assoluta media tra il punteggio dell’input originale e i punteggi dell’input perturbato.

Punteggio F1 sulle parole Delta: la differenza assoluta media nei punteggi F1 sulle parole per gli input originali e quelli perturbati. I punteggi F1 sulle parole vengono calcolati allo stesso modo del punteggio F1 sulle parole in Risposta alle domande.
Punteggio Corrispondenza esatta Delta: la differenza assoluta media nei punteggi Corrispondenza esatta per gli input originali e quelli perturbati. I punteggi Corrispondenza esatta vengono calcolati allo stesso modo del punteggio Corrispondenza esatta in Risposta alle domande.
Punteggio Corrispondenza quasi esatta Delta: la differenza assoluta media nei punteggi Corrispondenza quasi esatta per gli input originali e quelli perturbati. I punteggi Corrispondenza quasi esatta vengono calcolati allo stesso modo del punteggio Corrispondenza quasi esatta in Risposta alle domande.
Punteggio Precisione sulle parole Delta: la differenza assoluta media nei punteggi Precisione sulle parole per gli input originali e quelli perturbati. I punteggi Precisione sulle parole vengono calcolati allo stesso modo del punteggio Precisione sulle parole in Risposta alle domande.
Punteggio Richiamo sulle parole Delta: la differenza assoluta media nei punteggi Richiamo sulle parole per gli input originali e quelli perturbati. I punteggi Richiamo sulle parole vengono calcolati allo stesso modo del punteggio Richiamo sulle parole in Risposta alle domande.

Classificazione

Per le attività di classificazione, la robustezza semantica misura l’accuratezza quando viene utilizzato l’input perturbato, oltre al Delta per ogni punteggio. Il punteggio Delta rappresenta la differenza assoluta media tra il punteggio dell’input originale e i punteggi dell’input perturbato.

Punteggio Accuratezza Delta: la differenza assoluta media nei punteggi di accuratezza per gli input originali e quelli perturbati. I punteggi di accuratezza vengono calcolati come il punteggio di accuratezza in Classificazione.

Generazione aperta

Le valutazioni di robustezza semantica per la generazione aperta non possono essere create in Studio. Devono essere creati utilizzando la fmeval libreria con GeneralSemanticRobustness. Invece di calcolare la differenza nei punteggi per la generazione aperta, la valutazione della robustezza semantica misura la dissomiglianza nelle generazioni di modelli tra l’input originale e l’input perturbato. Questa dissomiglianza viene misurata con le seguenti strategie:

Tasso di errore delle parole (WER): misura la differenza sintattica tra le due generazioni calcolando la percentuale di parole che devono essere modificate per convertire la prima generazione nella seconda generazione. Per ulteriori informazioni sul calcolo del WER, consulta l'HuggingFace articolo sul tasso di errore di Word.
- Esempio:
  - Input 1: “Questo è un gatto”
  - Input 2: “Questo è un cane”
  - Numero di parole che devono essere modificate: 1/4 o 25%
  - WER: 0,25
BERTScore Dissimilarità (BSD): misura le differenze semantiche tra le due generazioni sottraendo da 1. BERTScore BSD può consentire una maggiore flessibilità linguistica, non inclusa in WER, perché frasi semanticamente simili possono essere incorporate più vicine l’una all’altra.
- Ad esempio, mentre WER non cambia quando la generazione 2 e la generazione 3 vengono confrontate individualmente con la generazione 1, il punteggio BSD è diverso perché tiene conto del significato semantico.
  - gen1 (input originale): "It is pouring down today"
  - gen2 (input perturbato 1): "It is my birthday today"
  - gen3 (input perturbato 2): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- Le seguenti opzioni sono supportate come parte del parametro: GeneralSemanticRobustnessConfig
  - model_type_for_bertscore: nome del modello da utilizzare per il punteggio. BERTScore Attualmente Dissuilarity supporta solo i seguenti modelli:
    
    “microsoft/deberta-xlarge-mnli” (impostazione predefinita)
    
    "roberta-large-mnli"

Modelli non deterministici

Quando la strategia di generazione del modello non è deterministica, ad esempio in LLMs caso di temperatura diversa da zero, l'output può cambiare anche se l'input è lo stesso. In questi casi, i report che mostrano le differenze tra l’output del modello per gli input originali e quelli perturbati potrebbero evidenziare una robustezza artificialmente bassa. Per tenere conto della strategia non deterministica, la valutazione della robustezza semantica normalizza il punteggio di dissomiglianza sottraendo la dissomiglianza media tra gli output del modello basati sullo stesso input.

max(0,d−dbase)

d: il punteggio di dissomiglianza (Word Error Rate o BERTScore Dissimilarity) tra le due generazioni.
dbase: dissomiglianza tra gli output del modello basati sullo stesso input.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Stereotipizzazione dei prompt

Tossicità