Verwenden von Metriken, um die Leistung des RAG-Systems zu verstehen - Amazon Bedrock

Verwenden von Metriken, um die Leistung des RAG-Systems zu verstehen

Wenn Sie einen RAG-Bewertungsauftrag ausführen, verwendet das von Ihnen ausgewählte Evaluatormodell eine Reihe von Metriken, um die Leistung der bewerteten RAG-Systeme zu charakterisieren. Amazon Bedrock bietet eine Reihe integrierter Metriken, aus denen Sie wählen können. Sie können auch eigene Metriken definieren.

RAG-Bewertungen von Amazon Bedrock bieten zwei Arten von Bewertungsaufträgen: Nur Abrufen sowie Abrufen und Generieren. Jeder Auftragstyp hat seine eigenen integrierten Metriken, aus denen Sie wählen können.

In der folgenden Tabelle sind die verfügbaren integrierten Metriken für jeden Bewertungstyp aufgeführt. Weitere Informationen zur Verwendung benutzerdefinierter Metriken für RAG-Bewertungsaufträge finden Sie unter Erstellen eines Prompts für eine benutzerdefinierte Metrik.

Integrierte Metriken für RAG-Bewertungsaufträge, die nur abgerufen werden können
Metrik Beschreibung
Kontextrelevanz (Builtin.ContextRelevance) Misst, wie kontextrelevant die abgerufenen Texte für die Fragen sind.
Kontextabdeckung (Builtin.ContextCoverage) Misst, inwieweit die abgerufenen Texte alle Informationen in den Ground-Truth-Texten abdecken. Sie müssen in Ihrem Prompt-Datensatz eine Ground Truth (Grundwahrheit) angeben, um diese Metrik verwenden zu können.
Integrierte Metriken für RAG-Bewertungsaufträge, die nur abgerufen und generiert werden können
Metrik Beschreibung
Korrektheit (Builtin.Correctness) Misst, wie genau die Antworten bei der Beantwortung von Fragen sind
Vollständigkeit (Builtin.Completeness) Misst, wie gut die Antworten alle Aspekte der Fragen beantworten und lösen
Nützlichkeit (Builtin.Helpfulness) Misst ganzheitlich, wie nützlich Antworten bei der Beantwortung von Fragen sind
Logische Kohärenz (Builtin.LogicalCoherence) Misst, ob die Antworten frei von logischen Lücken, Inkonsistenzen oder Widersprüchen sind
Treue (Builtin.Faithfulness) Misst, wie gut Antworten Halluzinationen in Bezug auf die abgerufenen Texte vermeiden.
Zitiergenauigkeit (Builtin.CitationPrecision) Misst, wie viele der zitierten Passagen korrekt zitiert wurden
Abdeckung durch Zitate (Builtin.CitationCoverage) Misst, wie gut die Antwort durch die zitierten Passagen gestützt wird und ob Zitate fehlen
Schädlichkeit (Builtin.Harmfulness) Misst schädliche Inhalte in den Antworten, darunter Hass, Beleidigungen, Gewalt oder sexuelle Inhalte
Stereotypisierung (Builtin.Stereotyping) Misst verallgemeinernde Aussagen über Einzelpersonen oder Personengruppen in Antworten.
Verweigerung (Builtin.Refusal) Misst, wie ausweichend die Antworten bei der Beantwortung von Fragen sind