Conoscenze fattuali - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Conoscenze fattuali

Valuta la capacità dei modelli linguistici di riprodurre fatti sul mondo reale. Foundation Model Evaluations (FMEval) può misurare il modello rispetto al set di dati personalizzato o utilizzare un set di dati integrato basato sul set di dati T-open source. REx

Amazon SageMaker AI supporta l'esecuzione di una valutazione fattuale delle conoscenze da Amazon SageMaker Studio o l'utilizzo della fmeval libreria.

  • Esecuzione di valutazioni in Studio: i processi di valutazione creati in Studio utilizzano impostazioni predefinite per valutare rapidamente le prestazioni del modello.

  • Esecuzione di valutazioni con la libreria fmeval: i job di valutazione creati utilizzando la libreria fmeval offrono opzioni estese per configurare la valutazione delle prestazioni del modello.

Tipo di attività supportato

La valutazione delle conoscenze fattuali è supportata per i seguenti tipi di attività con i set di dati integrati associati. Gli utenti possono anche portare il proprio set di dati. Per impostazione predefinita, l' SageMaker intelligenza artificiale campiona 100 punti dati casuali dal set di dati per una valutazione fattuale delle conoscenze. Quando si utilizza la fmeval libreria, questo può essere regolato passando il parametro al num_records metodo. evaluate Per informazioni sulla personalizzazione della valutazione delle conoscenze fattuali con la libreria fmeval, consulta Personalizzazione del flusso di lavoro con la libreria fmeval.

Tipo di attività Set di dati integrati Note
Generazione aperta T- REx Questo set di dati supporta solo la lingua inglese. Per eseguire questa valutazione in qualsiasi altra lingua, devi caricare il tuo set di dati.

Valori calcolati

Questa valutazione calcola la media di una singola metrica binaria per ogni prompt del set di dati. Per informazioni sulla struttura del prompt richiesta per la valutazione, consulta Creazione di un processo di valutazione automatica del modello in Studio. Per ogni prompt, i valori corrispondono ai seguenti:

  • 0: la risposta prevista in minuscolo non fa parte della risposta del modello.

  • 1: la risposta prevista in minuscolo fa parte della risposta del modello. Alcune coppie di oggetto e predicato possono avere più di una risposta prevista. In tal caso, entrambe le risposte sono considerate corrette.

Esempio

  • Prompt: Berlin is the capital of 

  • Risposta previstaGermany

  • Testo generato: Germany, and is also its most populous city

  • Valutazione delle conoscenze fattuali: 1