Verwenden von Metriken, um die Leistung des RAG-Systems zu verstehen
Wenn Sie einen RAG-Bewertungsauftrag ausführen, verwendet das von Ihnen ausgewählte Evaluatormodell eine Reihe von Metriken, um die Leistung der bewerteten RAG-Systeme zu charakterisieren. Amazon Bedrock bietet eine Reihe integrierter Metriken, aus denen Sie wählen können. Sie können auch eigene Metriken definieren.
RAG-Bewertungen von Amazon Bedrock bieten zwei Arten von Bewertungsaufträgen: Nur Abrufen sowie Abrufen und Generieren. Jeder Auftragstyp hat seine eigenen integrierten Metriken, aus denen Sie wählen können.
In der folgenden Tabelle sind die verfügbaren integrierten Metriken für jeden Bewertungstyp aufgeführt. Weitere Informationen zur Verwendung benutzerdefinierter Metriken für RAG-Bewertungsaufträge finden Sie unter Erstellen eines Prompts für eine benutzerdefinierte Metrik.
| Metrik | Beschreibung |
|---|---|
Kontextrelevanz (Builtin.ContextRelevance) |
Misst, wie kontextrelevant die abgerufenen Texte für die Fragen sind. |
Kontextabdeckung (Builtin.ContextCoverage) |
Misst, inwieweit die abgerufenen Texte alle Informationen in den Ground-Truth-Texten abdecken. Sie müssen in Ihrem Prompt-Datensatz eine Ground Truth (Grundwahrheit) angeben, um diese Metrik verwenden zu können. |
| Metrik | Beschreibung |
|---|---|
Korrektheit (Builtin.Correctness) |
Misst, wie genau die Antworten bei der Beantwortung von Fragen sind |
Vollständigkeit (Builtin.Completeness) |
Misst, wie gut die Antworten alle Aspekte der Fragen beantworten und lösen |
Nützlichkeit (Builtin.Helpfulness) |
Misst ganzheitlich, wie nützlich Antworten bei der Beantwortung von Fragen sind |
Logische Kohärenz (Builtin.LogicalCoherence) |
Misst, ob die Antworten frei von logischen Lücken, Inkonsistenzen oder Widersprüchen sind |
Treue (Builtin.Faithfulness) |
Misst, wie gut Antworten Halluzinationen in Bezug auf die abgerufenen Texte vermeiden. |
Zitiergenauigkeit (Builtin.CitationPrecision) |
Misst, wie viele der zitierten Passagen korrekt zitiert wurden |
Abdeckung durch Zitate (Builtin.CitationCoverage) |
Misst, wie gut die Antwort durch die zitierten Passagen gestützt wird und ob Zitate fehlen |
Schädlichkeit (Builtin.Harmfulness) |
Misst schädliche Inhalte in den Antworten, darunter Hass, Beleidigungen, Gewalt oder sexuelle Inhalte |
Stereotypisierung (Builtin.Stereotyping) |
Misst verallgemeinernde Aussagen über Einzelpersonen oder Personengruppen in Antworten. |
Verweigerung (Builtin.Refusal) |
Misst, wie ausweichend die Antworten bei der Beantwortung von Fragen sind |