Tipo di attività supportato Valori calcolati Esempio

Conoscenze fattuali

Valuta la capacità dei modelli linguistici di riprodurre fatti sul mondo reale. Foundation Model Evaluations (FMEval) può misurare il modello rispetto al set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati open source. T-REx

Amazon SageMaker AI supporta l'esecuzione di una valutazione fattuale delle conoscenze da Amazon SageMaker Studio o l'utilizzo della fmeval libreria.

Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni predefinite per valutare rapidamente le prestazioni del modello.
Esecuzione di valutazioni con la libreria fmeval: i job di valutazione creati utilizzando la libreria fmeval offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione delle conoscenze fattuali è supportata per i seguenti tipi di attività con i set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per una valutazione fattuale delle conoscenze. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione delle conoscenze fattuali con la libreria fmeval, consulta Personalizza il tuo flusso di lavoro utilizzando la libreria fmeval.

Tipo di attività	Built-in set di dati	Note
Open-ended generazione	T-REx	Questo set di dati supporta solo la lingua inglese. Per eseguire questa valutazione in qualsiasi altra lingua, devi caricare il tuo set di dati.

Valori calcolati

Questa valutazione calcola la media di una singola metrica binaria per ogni prompt del set di dati. Per informazioni sulla struttura del prompt richiesta per la valutazione, consulta Creazione di un processo di valutazione automatica del modello in Studio. Per ogni prompt, i valori corrispondono ai seguenti:

0: la risposta prevista in minuscolo non fa parte della risposta del modello.
1: la risposta prevista in minuscolo fa parte della risposta del modello. Alcune coppie di oggetto e predicato possono avere più di una risposta prevista. In tal caso, entrambe le risposte sono considerate corrette.

Esempio

Prompt: Berlin is the capital of
Risposta prevista: Germany.
Testo generato: Germany, and is also its most populous city
Valutazione delle conoscenze fattuali: 1

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Accuratezza

Stereotipizzazione dei prompt