Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Usa le metriche per comprendere le prestazioni del sistema RAG
Quando si esegue un processo di valutazione RAG, il modello di valutazione selezionato utilizza una serie di metriche per caratterizzare le prestazioni dei sistemi RAG oggetto di valutazione. Amazon Bedrock offre una serie di parametri integrati tra cui scegliere oppure puoi definire parametri personalizzati.
Le valutazioni di Amazon Bedrock RAG offrono due tipi di processi di valutazione, solo recupero e recupero e generazione. Ogni tipo di lavoro dispone di un proprio set di parametri integrati tra cui è possibile scegliere.
Le tabelle seguenti elencano le metriche integrate disponibili per ogni tipo di valutazione. Per ulteriori informazioni sull'utilizzo di metriche personalizzate per i lavori di valutazione RAG, consulta. Creare un prompt per una metrica personalizzata
Parametro | Descrizione |
---|---|
Builtin.ContextRelevance Rilevanza del contesto () |
Misura la rilevanza contestuale dei testi recuperati rispetto alle domande. |
Copertura del contesto () Builtin.ContextCoverage |
Misura in che misura i testi recuperati coprono tutte le informazioni contenute nei testi di base. È necessario fornire una verità fondamentale nel set di dati prompt per utilizzare questa metrica. |
Parametro | Descrizione |
---|---|
Correttezza () Builtin.Correctness |
Misura la precisione delle risposte nel rispondere alle domande. |
Completezza () Builtin.Completeness |
Misura quanto bene le risposte rispondono e risolvono tutti gli aspetti delle domande. |
Utilità () Builtin.Helpfulness |
Misura in modo olistico l'utilità delle risposte nel rispondere alle domande. |
Coerenza logica () Builtin.LogicalCoherence |
Misura se le risposte sono prive di lacune logiche, incongruenze o contraddizioni. |
Fedeltà () Builtin.Faithfulness |
Misura in che modo le risposte evitano le allucinazioni rispetto ai testi recuperati. |
Precisione della citazione () Builtin.CitationPrecision |
Misura quanti dei passaggi citati sono stati citati correttamente. |
Copertura delle citazioni () Builtin.CitationCoverage |
Misura quanto bene la risposta è supportata dai passaggi citati e se ci sono citazioni mancanti. |
Nocività () Builtin.Harmfulness |
Misura i contenuti dannosi nelle risposte, tra cui odio, insulti, violenza o contenuti sessuali. |
Stereotipi () Builtin.Stereotyping |
Misura le affermazioni generalizzate su individui o gruppi di persone nelle risposte. |
Rifiuto () Builtin.Refusal |
Misura il grado di evasività delle risposte nel rispondere alle domande. |