Accuratezza - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accuratezza

Questa valutazione misura la precisione delle prestazioni di un modello in un’attività confrontando l’output del modello con la risposta Ground Truth inclusa nel set di dati.

Amazon SageMaker AI supporta l'esecuzione di una valutazione della precisione da Amazon SageMaker Studio o l'utilizzo della fmeval libreria.

  • Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni predefinite per valutare rapidamente le prestazioni del modello.

  • Esecuzione di valutazioni con la libreria fmeval: i job di valutazione creati utilizzando la libreria fmeval offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione dell’accuratezza è supportata per i seguenti tipi di attività con i relativi set di dati integrati associati. I set di dati integrati includono un componente Ground Truth utilizzato per misurare l’accuratezza. Gli utenti possono anche utilizzare i propri set di dati. Per informazioni sull’inclusione del componente Ground Truth nel set di dati, consulta Valutazione automatica del modello.

Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 prompt casuali dal set di dati per una valutazione dell'accuratezza. Quando si utilizza la fmeval libreria, questo può essere regolato passando il num_records parametro al metodo. evaluate Per informazioni sulla personalizzazione della valutazione fattuale delle conoscenze mediante la fmeval libreria, vedere. Personalizzazione del flusso di lavoro con la libreria fmeval

Tipo di attività Set di dati integrati Note
Riepilogo del testo Gigaword, Set di dati di report governativi I set di dati integrati sono solo in lingua inglese, ma alcune metriche sono indipendenti dalla lingua. Puoi importare set di dati in qualsiasi lingua.
Risposta alle domande BoolQ, TriviaA NaturalQuestions I set di dati integrati sono solo in lingua inglese, ma alcune metriche sono indipendenti dalla lingua. Puoi importare set di dati in qualsiasi lingua.
Classificazione Women’s E-Commerce Clothing Reviews

Valori calcolati

I punteggi misurati per valutare l’accuratezza cambiano a seconda del tipo di attività. Per informazioni sulla struttura del prompt richiesta per la valutazione, consulta Creazione di un processo di valutazione automatica del modello in Studio.

Riassunto

Per le attività di sintesi, la valutazione dell’accuratezza misura quanto precisamente un modello riesce a sintetizzare il testo. Per impostazione predefinita, questa valutazione confronta il modello con due set di dati integrati che contengono coppie di testo di input e risposte Ground Truth. Le sintesi generate dal modello vengono quindi confrontate con le risposte Ground Truth utilizzando tre metriche integrate che misurano la somiglianza delle sintesi in diversi modi. Di tutti questi punteggi viene calcolata la media sull’intero set di dati.

  • Punteggio ROUGE: i punteggi ROUGE sono una classe di metriche che calcolano le unità di parole sovrapposte (N-grammi) tra la sintesi generata dal modello e la sintesi Ground Truth per misurare la qualità della funzionalità di sintesi. Quando si valuta un punteggio ROUGE, i valori più alti indicano che il modello è stato in grado di creare una sintesi migliore.

    • I valori vanno da 0 (nessuna corrispondenza) a 1 (corrispondenza perfetta).

    • Le metriche non fanno distinzione tra maiuscole e minuscole.

    • Limitazione: può non essere attendibile nelle attività di sintesi astrattiva perché il punteggio si basa sulla sovrapposizione di parole esatte.

    • Esempio di calcolo del bigramma ROUGE

      • Sintesi Ground Truth: “Il cane giocava a rincorrere la palla nel parco”.

      • Sintesi generata: “Il cane giocava con la palla”.

      • ROUGE-2: conta il numero di bigrammi (due parole adiacenti in una frase) in comune tra il riferimento e il candidato. Esistono 4 bigrammi comuni (“il cane”, “cane che giocava”, “con la”, “la palla”).

      • Dividi per il numero totale di bigrammi nella sintesi Ground Truth: 9

      • ROUGE-2 = 4/9 = 0.444

    • Impostazioni predefinite del punteggio ROUGE nei processi di valutazione automatica del modello di Studio

      Quando crei un lavoro di valutazione automatica del modello utilizzando Studio, l' SageMaker IA utilizza N=2 per gli N-grammi utilizzati nel calcolo del punteggio ROUGE. Di conseguenza, il processo di valutazione del modello utilizza i bigrammi per la corrispondenza. I processi Studio utilizzano anche lo stemmer Porter per eliminare i suffissi di parole da tutti i prompt. Ad esempio, la stringa raining viene troncata in rain.

    • Opzioni per i punteggi ROUGE disponibili nella libreria fmeval

      Utilizzando la libreria fmeval, puoi configurare come viene calcolato il punteggio ROUGE con il parametro SummarizationAccuracyConfig. Sono supportate le seguenti opzioni: 

      • rouge_type: la lunghezza degli N-grammi da raggiungere. I tre valori supportati sono:

        •  ROUGE_1 corrisponde a parole singole (unigrammi).

        •  ROUGE_2 corrisponde a coppie di parole (bigrammi). Si tratta del valore di default.

        •  ROUGE_L corrisponde alla sottosequenza comune più lunga.  Per calcolare la sottosequenza comune più lunga, viene considerato l’ordine delle parole, ma non la consecutività.

          • Esempio:

            • Sintesi del modello = “È autunno”

            • riferimento = “È di nuovo autunno”

            • Longest common subsequence(prediction, reference)=3

      • use_stemmer_for_rouge: se True (impostazione predefinita), utilizza lo stemmer Porter per eliminare i suffissi delle parole. 

        • Ad esempio: “pioveva” viene troncato in “piove”.

  • Punteggio Metric for Evaluation of Translation with Explicit ORdering (METEOR): METEOR è simile a ROUGE-1, ma include anche la derivazione e la corrispondenza dei sinonimi. Fornisce una visione più olistica della qualità di riepilogo rispetto a ROUGE, che si limita alla semplice corrispondenza di n-grammi. I punteggi METEOR più alti in genere indicano una maggiore accuratezza.

    • Limitazione: può non essere attendibile nelle attività di sintesi astrattiva perché il punteggio si basa sulla sovrapposizione di parole esatte e di sinonimi.

  • BERTScore: BERTScore utilizza un modello ML aggiuntivo della famiglia BERT per calcolare gli incorporamenti di frasi e confrontarne la somiglianza con il coseno. Questo punteggio mira a rendere conto di una maggiore flessibilità linguistica rispetto a ROUGE e METEOR perché frasi semanticamente simili possono essere incorporate più vicine l'una all'altra.

    • Limitazioni:

      • Eredita i limiti del modello utilizzato per confrontare le fasi.

      • Può non essere attendibile per confronti di testi brevi quando viene modificata una sola parola importante.

    • BERTScoreimpostazioni predefinite nei lavori di valutazione automatica dei modelli di Studio

      Quando crei un lavoro di valutazione automatica del modello utilizzando Studio, SageMaker AI utilizza il deberta-xlarge-mnli modello per calcolare il. BERTScore

    • BERTScore opzioni disponibili nella fmeval libreria

      Utilizzando la fmeval libreria, è possibile configurare il modo in cui BERTScore viene calcolato il SummarizationAccuracyConfig parametro. Sono supportate le seguenti opzioni:

Risposta alle domande

Per le attività di risposta alle domande, la valutazione dell’accuratezza misura le prestazioni di risposta alle domande di un modello confrontando le risposte generate con le risposte Ground Truth in diversi modi. Di tutti questi punteggi viene calcolata la media sull’intero set di dati.

Nota

Queste metriche vengono calcolate confrontando le risposte generate e quelle Ground Truth per la corrispondenza esatta. Di conseguenza, potrebbero essere meno attendibili per le domande la cui risposta può essere riformulata senza modificarne il significato.

  • Punteggio Precisione sulle parole: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore). Per calcolare questo punteggio, l’output del modello e la Ground Truth vengono normalizzati prima del confronto. Prima di calcolare la precisione, questa valutazione rimuove eventuali caratteri di nuova riga per gestire le risposte dettagliate composte da più paragrafi. Il punteggio Precisione può essere valutato in qualsiasi lingua caricando il set di dati appropriato.

    • precision = true positives / (true positives + false positives)

      • true positives: il numero di parole nell’output del modello che sono contenute anche nella Ground Truth.

      • false positives: il numero di parole nell’output del modello che non sono contenute nella Ground Truth.

  • Punteggio Richiamo sulle parole: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore). Per calcolare questo punteggio, l’output del modello e la Ground Truth vengono normalizzati prima del confronto. Prima di calcolare il richiamo, questa valutazione rimuove eventuali caratteri di nuova riga per gestire le risposte dettagliate composte da più paragrafi. Poiché il richiamo verifica solo se la risposta contiene la Ground Truth e non penalizza la verbosità, è consigliato per i modelli più dettagliati. Il punteggio Richiamo può essere valutato in qualsiasi lingua caricando il set di dati appropriato.

    • recall = true positives / (true positives + false negatives)

      • true positives: il numero di parole nell’output del modello che sono contenute anche nella Ground Truth.

      • false negatives: il numero di parole che mancano nell’output del modello, ma che sono incluse nella Ground Truth.

  • Punteggio F1 sulle parole: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore). F1 è la media armonica tra precisione e richiamo. Per calcolare questo punteggio, l’output del modello e la Ground Truth vengono normalizzati prima del confronto. Prima di calcolare F1, questa valutazione rimuove eventuali caratteri di nuova riga per gestire le risposte dettagliate composte da più paragrafi. Il punteggio F1 sulle parole può essere valutato in qualsiasi lingua caricando il set di dati appropriato.

    • F1 = 2*((precision * recall)/(precision + recall))

      • precision: la precisione viene calcolata allo stesso modo del punteggio di precisione.

      • recall: il richiamo viene calcolato allo stesso modo del punteggio di richiamo.

  • Punteggio Corrispondenza esatta (EM): punteggio binario che indica se l’output del modello corrisponde esattamente alla risposta Ground Truth. Il punteggio Corrispondenza esatta può essere valutato in qualsiasi lingua caricando il set di dati appropriato.

    • 0: non è una corrispondenza esatta.

    • 1: corrispondenza esatta.

    • Esempio:

      • Domanda: where is the world's largest ice sheet located today?”

      • Ground Truth: “Antartide”

      • Risposta generata: “in Antartide”

        • Punteggio: 0

      • Risposta generata: “Antartide”

        • Punteggio: 1

  • Punteggio Corrispondenza quasi esatta: punteggio binario calcolato in modo simile al punteggio Corrispondenza esatta, ma l’output del modello e la Ground Truth vengono normalizzati prima del confronto. Per entrambi, l’output viene normalizzato convertendolo in lettere minuscole, quindi rimuovendo articoli, segni di punteggiatura e spazi vuoti in eccesso.

    • 0: non è una corrispondenza quasi esatta.

    • 1: corrispondenza quasi esatta.

    • Esempio:

      • Domanda: where is the world's largest ice sheet located today?”

      • Ground Truth: “Antartide”

      • Risposta generata: “in Sud America”

        • Punteggio: 0

      • Risposta generata: “in Antartide”

        • Punteggio: 1

Classificazione

Per le attività di classificazione, la valutazione dell’accuratezza confronta la classe di input prevista con la relativa etichetta. Di tutti questi punteggi vengono calcolate le medie individuali sull’intero set di dati.

  • Punteggio Accuratezza: punteggio binario che indica se l’etichetta prevista dal modello è una corrispondenza esatta dell’etichetta specificata dell’input.

    • 0: non è una corrispondenza esatta.

    • 1: corrispondenza esatta.

  • Punteggio Precisione: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore).

    • precision = true positives / (true positives + false positives)

      • true positives: il numero di input in cui il modello ha previsto l’etichetta specificata per il rispettivo input.

      • false positives: il numero di input in cui il modello ha previsto un’etichetta non corrispondente all’etichetta specificata per il rispettivo input.

    • Impostazioni predefinite del punteggio Precisione nei processi di valutazione automatica del modello di Studio

      Quando crei un processo di valutazione automatica del modello utilizzando Studio, l' SageMaker intelligenza artificiale calcola la precisione a livello globale in tutte le classi contando il numero totale di veri positivi, falsi negativi e falsi positivi.

    • Opzioni per il punteggio Precisione disponibili nella libreria fmeval

      Utilizzando la libreria fmeval, puoi configurare come viene calcolato il punteggio Precisione con il parametro ClassificationAccuracyConfig. Sono supportate le seguenti opzioni: 

      • multiclass_average_strategy determina il modo in cui i punteggi vengono aggregati tra le classi nell’impostazione di classificazione multiclasse. I valori possibili sono {'micro', 'macro', 'samples', 'weighted', 'binary'} o None (predefinito = 'micro').  Nel caso predefinito ‘micro', la precisione viene calcolata globalmente in tutte le classi contando il numero totale di veri positivi, falsi negativi e falsi positivi. Per tutte le altre opzioni, consulta sklearn.metrics.precision_score.

        Nota

        Per la classificazione binaria, consigliamo di utilizzare la strategia di calcolo della media 'binary', che corrisponde alla definizione classica di precisione.

  • Punteggio Richiamo: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore).

    • recall = true positives / (true positives + false negatives)

      • true positives: il numero di input in cui il modello ha previsto l’etichetta specificata per il rispettivo input.

      • false negatives: il numero di input in cui il modello non ha previsto l’etichetta specificata per il rispettivo input.

    • Impostazioni predefinite del punteggio Richiamo nei processi di valutazione automatica del modello di Studio

      Quando crei un processo di valutazione automatica del modello utilizzando Studio, l' SageMaker intelligenza artificiale calcola il richiamo a livello globale in tutte le classi contando il numero totale di veri positivi, falsi negativi e falsi positivi.

    • Opzioni per il punteggio Richiamo disponibili nella libreria fmeval

      Utilizzando la libreria fmeval, puoi configurare come viene calcolato il punteggio Richiamo con il parametro ClassificationAccuracyConfig. Sono supportate le seguenti opzioni: 

      • multiclass_average_strategy determina il modo in cui i punteggi vengono aggregati tra le classi nell’impostazione di classificazione multiclasse. I valori possibili sono {'micro', 'macro', 'samples', 'weighted', 'binary'} o None (predefinito = 'micro').  Nel caso predefinito ‘micro', il richiamo viene calcolato globalmente in tutte le classi contando il numero totale di veri positivi, falsi negativi e falsi positivi. Per tutte le altre opzioni, consulta sklearn.metrics.precision_score.

        Nota

        Per la classificazione binaria, consigliamo di utilizzare la strategia di calcolo della media 'binary', che corrisponde alla definizione classica di richiamo.

  • Accuratezza di classificazione bilanciata: punteggio numerico compreso tra 0 (peggiore) e 1 (migliore).

    • Per la classificazione binaria: questo punteggio viene calcolato allo stesso modo dell’accuratezza.

    • Per la classificazione multiclasse: questo punteggio calcola la media dei punteggi individuali di richiamo per tutte le classi.

      • Per gli output di esempio seguenti:

        Verifica testo Etichetta di dati acquisiti sul campo Class name (Nome classe) Etichetta prevista
        Torta deliziosa! La comprerei di nuovo. 3 brownie 3
        Torta molto buona! Raccomandata. 2 torta quattro quarti 2
        Terribile! Torta schifosa. 1 torta quattro quarti 2
        • Richiamo di classe 1: 0

        • Richiamo di classe 2: 1

        • Richiamo di classe 3: 1

        • Accuratezza di classificazione bilanciata: (0+1+1)/3 = 0,66