Interpretazione dei risultati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Interpretazione dei risultati

Analizza le metriche di valutazione derivate dal confronto dei modelli di classificazione del testo per prendere decisioni basate sui dati per l’implementazione in produzione.

Informazioni sulle metriche di valutazione

La valutazione fornisce diverse metriche chiave per ogni modello in tutti i set di dati:

Accuratezza

Misura la percentuale di previsioni corrette e funziona meglio con i set di dati bilanciati. Tuttavia, può essere fuorviante con dati squilibrati e può mostrare risultati sovrastimati quando una classe è predominante.

Precisione

Valuta la capacità del modello di evitare i falsi positivi misurando in che percentuale le previsioni positive si sono rivelate corrette. Questa metrica va da 0,0 a 1,0 (valori più alti indicano prestazioni migliori) e diventa essenziale quando i falsi positivi sono costosi.

Recupero

Valuta l’efficacia del modello nel rilevare tutti i casi positivi misurando la percentuale di veri positivi rilevata. Va da 0,0 a 1,0 (valori più alti indicano prestazioni migliori) e diventa essenziale quando il mancato rilevamento dei positivi è costoso.

Punteggio F1

Fornisce la media armonica di precisione e richiamo, bilanciando entrambe le metriche in un unico punteggio compreso tra 0,0 e 1,0 (valori più alti indicano prestazioni migliori).

Coefficiente di correlazione di Matthews (MCC)

Misura la qualità complessiva della classificazione binaria e si presenta come metrica ottimale per i dati squilibrati. Va da -1,0 a 1,0 (valori più alti indicano prestazioni migliori) e 0 rappresenta un’ipotesi casuale.

Area sotto la curva ROC (Receiver Operating Characteristic)

Valuta la precisione con cui il modello distingue le classi. Va da 0,0 a 1,0, dove 1,0 rappresenta una classificazione perfetta e 0,5 rappresenta un’ipotesi casuale.

Tempo medio di inferenza

Misura la velocità di previsione, che diventa fondamentale per le applicazioni in tempo reale. Considera sia la velocità che la coerenza nella valutazione di questa metrica.

Nota

Non ti affidare esclusivamente all’accuratezza quando scegli il modello. Per set di dati squilibrati, le metriche di precisione, richiamo e MCC forniscono gli indicatori più attendibili per le prestazioni reali.

Confronto delle prestazioni tra diversi tipi di set di dati

Il set di dati bilanciato mostra le prestazioni dei modelli in condizioni ideali con una rappresentazione uguale di esempi positivi e negativi. Se le prestazioni sono alte, il modello ha appreso i modelli fondamentali di classificazione del testo.

Il set di dati disallineato rivela in che modo i modelli gestiscono lo squilibrio di classe reale, cosa comune negli scenari di produzione.

I test per i set di dati complessi verificano la robustezza del modello su casi ambigui o limite che potrebbero apparire in produzione.

Selezione del modello

Utilizza questo approccio sistematico per selezionare il modello ottimale per il tuo caso d’uso specifico.

Definizione delle priorità aziendali

Prima di scegliere un modello, stabilisci quali sono i fattori più importanti in termini di prestazioni per il tuo caso d’uso.

  1. Identifica i tuoi requisiti di accuratezza e la soglia di prestazioni minima accettabile.

  2. Determina i tuoi vincoli di latenza, ad esempio se è necessaria l’elaborazione in tempo reale (<100 ms) o in batch.

  3. Elabora le tue considerazioni su costi e budget per l’inferenza e il dimensionamento.

  4. Analizza le caratteristiche dei dati per capire se i dati di produzione sono bilanciati, disallineati o altamente variabili.

Quando scegliere i singoli modelli

Sulla base dei risultati della valutazione, scegli il modello che si adatta meglio al tuo caso d’uso:

  • Scegli DistilBERT se hai bisogno di inferenze più rapide e sufficientemente accurate, ad esempio per l’analisi del sentiment in tempo reale nei chatbot del servizio clienti, nei sistemi di moderazione dei contenuti o nelle applicazioni in cui è essenziale un tempo di risposta inferiore a 100 ms.

  • Scegli BERT quando la massima accuratezza è più importante della velocità, come la classificazione di documenti legali, l’analisi di testi medici o le applicazioni di conformità in cui la precisione è fondamentale e l’elaborazione in batch è accettabile.

Assegnazione delle priorità ai set di dati di valutazione

Concentrati sui set di dati che meglio rappresentano il tuo caso d’uso reale.

  1. Dai più peso al set di dati più simile ai dati del mondo reale.

  2. Valuta l’importanza dei casi limite nella tua applicazione e assegna di conseguenza una priorità alle prestazioni per i set di dati complessi.

  3. Bilancia l’ottimizzazione tra più scenari anziché concentrarti su un solo tipo di set di dati.

Confronta i risultati della valutazione rispetto a queste priorità per selezionare il modello che bilancia al meglio i tuoi requisiti di accuratezza, velocità e costi.

Ora che hai selezionato il tuo modello preferito, puoi passare all’implementazione in produzione. Continua su Implementazione del modello su larga scala.