Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Conoscenze fattuali
Valuta la capacità dei modelli linguistici di riprodurre fatti sul mondo reale. Foundation Model Evaluations (FMEval) può misurare il modello rispetto al set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati T-open
Amazon SageMaker AI supporta l'esecuzione di una valutazione fattuale delle conoscenze da Amazon SageMaker Studio o l'utilizzo della fmeval libreria.
-
Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni predefinite per valutare rapidamente le prestazioni del modello.
-
Esecuzione di valutazioni con la libreria
fmeval: i job di valutazione creati utilizzando la libreriafmevaloffrono opzioni estese per configurare la valutazione delle prestazioni del modello.
Tipo di attività supportato
La valutazione delle conoscenze fattuali è supportata per i seguenti tipi di attività con i set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per una valutazione fattuale delle conoscenze. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione delle conoscenze fattuali con la libreria fmeval, consulta Personalizzazione del flusso di lavoro con la libreria fmeval.
| Tipo di attività | Set di dati integrati | Note |
|---|---|---|
| Generazione aperta | T- REx |
Questo set di dati supporta solo la lingua inglese. Per eseguire questa valutazione in qualsiasi altra lingua, devi caricare il tuo set di dati. |
Valori calcolati
Questa valutazione calcola la media di una singola metrica binaria per ogni prompt del set di dati. Per informazioni sulla struttura del prompt richiesta per la valutazione, consulta Creazione di un processo di valutazione automatica del modello in Studio. Per ogni prompt, i valori corrispondono ai seguenti:
-
0: la risposta prevista in minuscolo non fa parte della risposta del modello. -
1: la risposta prevista in minuscolo fa parte della risposta del modello. Alcune coppie di oggetto e predicato possono avere più di una risposta prevista. In tal caso, entrambe le risposte sono considerate corrette.
Esempio
-
Prompt:
Berlin is the capital of -
Risposta prevista:
Germany. -
Testo generato:
Germany, and is also its most populous city -
Valutazione delle conoscenze fattuali: 1