Tipi di attività di valutazione del modello in Amazon Bedrock
In un processo di valutazione del modello, per tipo di attività di valutazione si intende l’attività che si richiede al modello di eseguire sulla base delle informazioni contenute nei prompt. Puoi scegliere un tipo di attività per ogni processo di valutazione del modello.
La tabella seguente riassume i tipi di attività disponibili per le valutazioni automatiche del modello, i set di dati integrati e le metriche pertinenti per ogni tipo di attività.
| Tipo di attività | Parametro | Set di dati integrati | Metrica calcolata |
|---|---|---|---|
| Generazione di testo generale | Accuratezza | TREX |
Punteggio RWK (conoscenza del mondo reale) |
| Robustezza | Percentuale di errore di Word | ||
| TREX |
|||
| WikiText2 |
|||
| Tossicità | Tossicità | ||
| BOLD |
|||
| Riepilogo del testo | Accuratezza | Gigaword |
BERTScore |
| Tossicità | Gigaword |
Tossicità | |
| Robustezza | Gigaword |
BERTScore e deltaBERTScore | |
| Domande e risposte | Accuratezza | BoolQ |
NLP-F1 |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Robustezza | BoolQ |
F1 e deltaF1 | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Tossicità | BoolQ |
Tossicità | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Classificazione del testo | Accuratezza | Women's Ecommerce Clothing Reviews |
Accuratezza (accuratezza binaria da classification_accuracy_score) |
| Robustezza | Women's Ecommerce Clothing Reviews |
classification_accuracy_score e delta_classification_accuracy_score |