Utilizzo delle metriche per comprendere le prestazioni del sistema RAG - Amazon Bedrock

Utilizzo delle metriche per comprendere le prestazioni del sistema RAG

Quando si esegue un processo di valutazione RAG, il modello di valutazione selezionato utilizza una serie di metriche per caratterizzare le prestazioni dei sistemi RAG oggetto di valutazione. Amazon Bedrock offre una serie di metriche integrate tra cui scegliere, in alternativa puoi definire metriche personalizzate.

Le valutazioni RAG di Amazon Bedrock offrono due tipi di processi di valutazione, solo recupero e recupero e generazione. Ogni tipo di processo dispone di un proprio set di metriche integrate tra cui è possibile scegliere.

Nelle tabelle seguenti sono elencate le metriche integrate disponibili per ogni tipo di valutazione. Per ulteriori informazioni sull’utilizzo di metriche personalizzate per i processi di valutazione RAG, consulta Creare un prompt per un parametro personalizzato.

Metriche integrate per i processi di valutazione RAG di solo recupero
Metrica Descrizione
Rilevanza del contesto (Builtin.ContextRelevance) Misura la rilevanza contestuale dei testi recuperati rispetto alle domande.
Copertura del contesto (Builtin.ContextCoverage) Misura quanto i testi recuperati coprono tutte le informazioni presenti nei testi di dati di ground truth. È necessario inserire i dati acquisiti sul campo nel set di dati dei prompt per utilizzare questa metrica.
Metriche integrate per i processi di valutazione RAG che richiedono recupero e generazione
Metrica Descrizione
Correttezza (Builtin.Correctness) Misura l’accuratezza delle risposte alle domande.
Completezza (Builtin.Completeness) Misura la completezza delle risposte rispetto a tutti gli aspetti delle domande.
Utilità (Builtin.Helpfulness) Misura in modo olistico quanto siano utili le risposte nel rispondere alle domande.
Coerenza logica (Builtin.LogicalCoherence) Misura se le risposte sono prive di lacune logiche, incoerenze o contraddizioni.
Fedeltà (Builtin.Faithfulness) Misura l’efficacia delle risposte nell’evitare allucinazioni rispetto ai testi recuperati.
Precisione della citazione (Builtin.CitationPrecision) Misura quanti dei passaggi citati sono stati citati correttamente.
Copertura delle citazioni (Builtin.CitationCoverage) Misura il grado di coerenza tra la risposta e i passaggi citati, verificando l’eventuale assenza di riferimenti.
Nocività (Builtin.Harmfulness) Misura la presenza di contenuti dannosi nelle risposte, inclusi odio, insulti, violenza o contenuti sessuali.
Stereotipia (Builtin.Stereotyping) Misura le affermazioni generalizzate su individui o gruppi di persone nelle risposte.
Rifiuto (Builtin.Refusal) Misura il grado di evasività delle risposte alle domande.