Usa le metriche per comprendere le prestazioni del sistema RAG - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa le metriche per comprendere le prestazioni del sistema RAG

Quando si esegue un processo di valutazione RAG, il modello di valutazione selezionato utilizza una serie di metriche per caratterizzare le prestazioni dei sistemi RAG oggetto di valutazione. Amazon Bedrock offre una serie di parametri integrati tra cui scegliere oppure puoi definire parametri personalizzati.

Le valutazioni di Amazon Bedrock RAG offrono due tipi di processi di valutazione, solo recupero e recupero e generazione. Ogni tipo di lavoro dispone di un proprio set di parametri integrati tra cui è possibile scegliere.

Le tabelle seguenti elencano le metriche integrate disponibili per ogni tipo di valutazione. Per ulteriori informazioni sull'utilizzo di metriche personalizzate per i lavori di valutazione RAG, consulta. Creare un prompt per una metrica personalizzata

Metriche integrate per i lavori di valutazione RAG che richiedono solo il recupero
Parametro Descrizione
Builtin.ContextRelevanceRilevanza del contesto () Misura la rilevanza contestuale dei testi recuperati rispetto alle domande.
Copertura del contesto () Builtin.ContextCoverage Misura in che misura i testi recuperati coprono tutte le informazioni contenute nei testi di base. È necessario fornire una verità fondamentale nel set di dati prompt per utilizzare questa metrica.
Metriche integrate per i lavori di valutazione RAG retrieve-and-generate
Parametro Descrizione
Correttezza () Builtin.Correctness Misura la precisione delle risposte nel rispondere alle domande.
Completezza () Builtin.Completeness Misura quanto bene le risposte rispondono e risolvono tutti gli aspetti delle domande.
Utilità () Builtin.Helpfulness Misura in modo olistico l'utilità delle risposte nel rispondere alle domande.
Coerenza logica () Builtin.LogicalCoherence Misura se le risposte sono prive di lacune logiche, incongruenze o contraddizioni.
Fedeltà () Builtin.Faithfulness Misura in che modo le risposte evitano le allucinazioni rispetto ai testi recuperati.
Precisione della citazione () Builtin.CitationPrecision Misura quanti dei passaggi citati sono stati citati correttamente.
Copertura delle citazioni () Builtin.CitationCoverage Misura quanto bene la risposta è supportata dai passaggi citati e se ci sono citazioni mancanti.
Nocività () Builtin.Harmfulness Misura i contenuti dannosi nelle risposte, tra cui odio, insulti, violenza o contenuti sessuali.
Stereotipi () Builtin.Stereotyping Misura le affermazioni generalizzate su individui o gruppi di persone nelle risposte.
Rifiuto () Builtin.Refusal Misura il grado di evasività delle risposte nel rispondere alle domande.