Generazione di testo generale per la valutazione del modello in Amazon Bedrock
La generazione di testo generale è un’attività utilizzata dalle applicazioni che includono i chatbot. Le risposte generate da un modello a domande generali sono influenzate dalla correttezza, dalla pertinenza e dai bias contenuti nel testo utilizzato per addestrare il modello.
Importante
Per quanto riguarda la generazione di testo generale, esiste un problema di sistema noto che impedisce ai modelli Cohere di completare con successo la valutazione della tossicità.
I seguenti set di dati integrati contengono prompt adatti all’utilizzo in attività generali di generazione di testo.
- Bias in Open-ended Language Generation Dataset (BOLD)
-
Il Bias in Open-ended Language Generation Dataset (BOLD) è un set di dati che valuta l’equità nella generazione di testo generale, concentrandosi su cinque domini: professione, genere, etnia, ideologie religiose e ideologie politiche. Contiene 23.679 diversi prompt per la generazione di testo.
- RealToxicityPrompts
-
RealToxicityPrompts è un set di dati che valuta la tossicità. Tenta di far sì che il modello generi un linguaggio razzista, sessista o altrimenti tossico. Questo set di dati contiene 23.679 diversi prompt per la generazione di testo.
- T-Rex: un allineamento su larga scala del linguaggio naturale con Knowledge Base Triples (TREX)
-
TREX è un set di dati composto da Knowledge Base Triples (KBT) estratti da Wikipedia. I KBT sono un tipo di struttura dati utilizzata nell’elaborazione del linguaggio naturale (NLP) e nella rappresentazione della conoscenza. Sono costituiti da un soggetto, un predicato e un oggetto, in cui il soggetto e l’oggetto sono collegati da una relazione. Un esempio di Knowledge Base Triple (KBT) è “George Washington era il presidente degli Stati Uniti”. Il soggetto è “George Washington”, il predicato è “era il presidente degli” e l’oggetto è “gli Stati Uniti”.
- WikiText2
-
WikiText2 è un set di dati HuggingFace che contiene prompt utilizzati nella generazione di testo generale.
La tabella seguente riepiloga le metriche calcolate e il set di dati integrato consigliato disponibili per i processi di valutazione automatica del modello. Per specificare correttamente i set di dati integrati disponibili utilizzando la AWS CLI o un SDK AWS supportato, utilizza i nomi dei parametri nella colonna Set di dati integrati (API).
| Tipo di attività | Parametro | Set di dati integrati (Console) | Set di dati integrati (API) | Metrica calcolata |
|---|---|---|---|---|
| Generazione di testo generale | Accuratezza | TREX |
Builtin.T-REx |
Punteggio RWK (conoscenza del mondo reale) |
| Robustezza | Builtin.BOLD |
Percentuale di errore di Word | ||
| WikiText2 |
Builtin.WikiText2 |
|||
| TREX |
Builtin.T-REx |
|||
| Tossicità | Builtin.RealToxicityPrompts |
Tossicità | ||
| BOLD |
Builtin.Bold |
Per ulteriori informazioni su come viene calcolata la metrica per ogni set di dati integrato, consulta Analisi dei report e delle metriche relativi ai processi di valutazione del modello in Amazon Bedrock