Scheda di valutazione per le valutazioni RAG che utilizzano LLMs Metriche rilevanti per le valutazioni basate unicamente sul recupero.Metriche rilevanti per il recupero con valutazioni del tipo di generazione della risposta

Esamina le metriche per le valutazioni RAG che utilizzano LLMs (console)

Puoi rivedere le metriche illustrate in un report per un processo di valutazione RAG utilizzando la console Amazon Bedrock.

Le valutazioni RAG che utilizzano Large Language Models (LLMs) elaborano metriche di valutazione per valutare le prestazioni dell'efficacia della knowledge base Amazon Bedrock o di una fonte RAG esterna nel recuperare informazioni e generare risposte.

Nella tua scheda di valutazione RAG, vedrai le metriche e i grafi di suddivisione delle metriche pertinenti al tipo di valutazione, che può essere solo di recupero o di recupero con generazione di risposta. Le metriche diverse sono pertinenti ai diversi tipi di valutazione. I punteggi calcolati per ogni metrica sono un punteggio medio per i testi recuperati o le risposte generate in tutte le query degli utenti nel set di dati dei prompt. Il punteggio calcolato per ogni metrica è compreso tra 0 e 1. Più si avvicina a 1, più la caratteristica di quella metrica appare nei testi o nelle risposte recuperati. I grafi di suddivisione per ciascuna metrica tracciano un istogramma e contano quanti testi o risposte recuperati per le query rientrano in ciascun intervallo di punteggio.

Ad esempio, hai creato un processo di valutazione per valutare il recupero con la generazione di risposte. La scheda del report della console mostra che un punteggio calcolato per la completezza nelle risposte è pari a 0,82. Il punteggio di completezza misura il modo in cui le risposte generate affrontano tutti gli aspetti delle domande degli utenti. Viene calcolato come punteggio medio per le risposte alle domande su tutti i prompt del set di dati. Il grafo dell’istogramma per Completezza mostra che la maggior parte delle risposte (barra più alta) rientra in un intervallo di punteggio di completezza compreso tra 0,7 e 0,8. Tuttavia, la knowledge base ha ottenuto un punteggio elevato anche per gli stereotipi, in cui nelle risposte vengono fatte dichiarazioni generalizzate con una media di 0,94. La knowledge base è in grado di generare nella maggior parte dei casi risposte abbastanza complete, ma tali risposte includono una grande quantità di affermazioni generalizzate su individui o gruppi di persone.

Scheda di valutazione per le valutazioni RAG che utilizzano LLMs

Segui i passaggi per aprire la scheda di valutazione nella console Amazon Bedrock per i lavori di valutazione RAG che utilizzano. LLMs Fai riferimento alle informazioni seguenti per ogni metrica rilevante per i tipi di valutazione di solo recupero e recupero con generazione di risposte.

Accedi a Console di gestione AWS e apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/.
Scegli Valutazioni dal riquadro di navigazione, quindi scegli Valutazione della knowledge base.
Seleziona il nome del tuo processo di valutazione della knowledge base. Verrai indirizzato alla scheda di report, che è la pagina principale della valutazione della knowledge base.

Nota
Per aprire la scheda di report, lo stato della valutazione RAG deve essere pronto o disponibile.

Metriche rilevanti per le valutazioni basate unicamente sul recupero.

Esistono alcune metriche utili per valutare la capacità della knowledge base di recuperare informazioni altamente pertinenti.

Indice

Rilevanza del contesto

Questa metrica è rilevante per la qualità delle informazioni recuperate. Il punteggio è un punteggio medio per i blocchi di testo recuperati in tutti i prompt del set di dati. Rilevanza del contesto significa che i blocchi di testo recuperati sono contestualmente pertinenti alle domande. Più alto è il punteggio, più l’informazione è contestualmente rilevante in media. Più basso è il punteggio, meno l’informazione è contestualmente rilevante in media.

Copertura contestuale (richiede dati acquisiti sul campo)

Questa metrica è rilevante per la qualità delle informazioni recuperate. Il punteggio è un punteggio medio per i blocchi di testo recuperati in tutti i prompt del set di dati. La copertura contestuale significa che i blocchi di testo recuperati coprono tutte le informazioni fornite nei testi con i dati di ground truth. Più alto è il punteggio, maggiore è la copertura contestuale in media. Più basso è il punteggio, minore è la copertura contestuale in media.

Metriche rilevanti per il recupero con valutazioni del tipo di generazione della risposta

Esistono alcune metriche utili per valutare la capacità della knowledge base di generare risposte utili e appropriate sulla base delle informazioni recuperate.

Indice

Correttezza

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Correttezza significa rispondere con precisione alle domande. Più alto è il punteggio, più corrette sono in media le risposte generate. Più basso è il punteggio, meno corrette sono in media le risposte generate.

Completezza

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. La completezza consiste nell’affrontare in modo esaustivo tutti gli aspetti della domanda. Più alto è il punteggio, più complete sono in media le risposte generate. Più basso è il punteggio, meno complete sono in media le risposte generate.

Utilità

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Utilità significa risposte olisticamente utili alle domande. Più alto è il punteggio, più utili sono in media le risposte generate. Più basso è il punteggio, meno utili sono in media le risposte generate.

Coerenza logica

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Coerenza logica significa che le risposte sono prive di lacune logiche, incongruenze o contraddizioni. Più alto è il punteggio, più coerenti sono in media le risposte generate. Più basso è il punteggio, meno coerenti sono in media le risposte generate.

Fedeltà

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Fedeltà significa evitare allucinazioni rispetto ai blocchi di testo recuperati. Più alto è il punteggio, più fedeli sono in media le risposte generate. Più basso è il punteggio, meno fedeli sono in media le risposte generate.

Precisione della citazione

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. La precisione della citazione è una misura del numero di passaggi citati che vengono citati correttamente. Più alto è il punteggio, maggiore è la correttezza media delle citazioni presenti nelle risposte. Più alto è il punteggio, minore è la correttezza media delle citazioni presenti nelle risposte.

Se scegli di utilizzare la precisione delle citazioni, devi utilizzare anche la copertura delle citazioni e viceversa. La copertura delle citazioni è approssimativamente il richiamo delle citazioni. L’utilizzo combinato di entrambe offre una visione completa della qualità della citazione.

Copertura delle citazioni

Questa metrica è rilevante per la qualità delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. La copertura delle citazioni è approssimativamente il richiamo delle citazioni ed è una misura del grado in cui la risposta è supportata dai passaggi citati. Più alto è il punteggio, più le risposte risultano mediamente supportate dalle citazioni. Più basso è il punteggio, meno le risposte risultano mediamente supportate dalle citazioni.

Se scegli di utilizzare la copertura delle citazioni, devi utilizzare anche la precisione delle citazioni e viceversa. L’utilizzo combinato di entrambe offre una visione completa della qualità della citazione.

Nocività

Questa metrica è rilevante per l’appropriatezza delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Nocività significa fare affermazioni odiose, offensive o violente. Più alto è il punteggio, più nocive sono in media le risposte generate. Più basso è il punteggio, meno nocive sono in media le risposte generate.

Stereotipia

Questa metrica è rilevante per l’appropriatezza delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Stereotipare significa fare affermazioni generalizzate su individui o gruppi di persone. Più alto è il punteggio, più stereotipate sono in media le risposte generate. Più basso è il punteggio, meno stereotipate sono in media le risposte generate. Nota che una forte presenza sia di stereotipi lusinghieri sia di stereotipi denigratori comporterà un punteggio elevato.

Rifiuto

Questa metrica è rilevante per l’appropriatezza delle risposte generate. Il punteggio è una media dei punteggi delle risposte su tutti i prompt presenti nel tuo set di dati. Rifiuto significa risposte evasive alle domande. Più alto è il punteggio, più evasive sono in media le risposte generate. Più basso è il punteggio, meno evasive sono in media le risposte generate.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Metriche e report per la valutazione della knowledge base

Requisiti CORS