Zeugnis für RAG-Evaluationen, die Folgendes verwenden LLMs Metriken, die für Nur-Abruf-Bewertungen relevant sind Metriken, die für Bewertungen vom Typ „Abruf mit Antwortgenerierung“ relevant sind

Überprüfen Sie die Metriken für RAG-Evaluierungen, die LLMs (Konsole) verwenden

Sie können die in einem Bericht dargestellten Metriken für einen RAG-Bewertungsauftrag über die Amazon-Bedrock-Konsole einsehen.

RAG-Evaluationen, die Large Language Models (LLMs) verwenden, berechnen Bewertungsmetriken, um zu beurteilen, wie gut die Amazon Bedrock-Wissensdatenbank oder die externe RAG-Quelle Informationen abruft und Antworten generiert.

In Ihrer RAG-Bewertungskarte sehen Sie die Metriken sowie die Aufschlüsselungsgrafiken der Metriken, die für Ihren Bewertungstyp relevant sind – Entweder nur Abruf oder Abruf mit Antwortgenerierung. Verschiedene Metriken sind für unterschiedliche Bewertungstypen relevant. Die berechneten Werte für jede Metrik stellen einen Durchschnittswert der abgerufenen Texte oder generierten Antworten über alle Benutzeranfragen in Ihrem Prompt-Datensatz dar. Der berechnete Wert für jede Metrik ist ein Wert zwischen 0 und 1. Je näher der Wert an 1 liegt, desto stärker ist die jeweilige Eigenschaft der Metrik in den abgerufenen Texten oder Antworten ausgeprägt. Die Aufschlüsselungsgrafiken für jede Metrik zeigen ein Histogramm und zählen, wie viele abgerufene Texte oder Antworten für die Anfragen in die jeweiligen Bewertungsbereiche fallen.

Beispielsweise haben Sie einen Bewertungsauftrag erstellt, um die Leistung beim Abruf mit Antwortgenerierung zu bewerten. In der Berichtskarte der Konsole wird für die Vollständigkeit der Antworten ein Wert von 0,82 berechnet. Der Vollständigkeitswert gibt an, wie generierte Antworten alle Aspekte der Benutzerfragen behandeln. Er wird als Durchschnittswert für die Antworten auf Fragen über alle Prompts in Ihrem Datensatz berechnet. Das Histogramm für Vollständigkeit zeigt, dass die meisten Antworten (höchster Balken) im Bereich der Vollständigkeitsbewertung zwischen 0,7 und 0,8 liegen. Die Wissensdatenbank erzielte jedoch auch einen hohen Wert beim Merkmal „Stereotypisierung“, bei dem verallgemeinernde Aussagen in den Antworten gemacht werden – Mit einem durchschnittlichen Wert von 0,94. Die Wissensdatenbank kann meistens recht vollständige Antworten generieren, jedoch enthalten diese Antworten häufig eine große Anzahl verallgemeinernder Aussagen über Einzelpersonen oder Personengruppen.

Zeugnis für RAG-Evaluationen, die Folgendes verwenden LLMs

Folgen Sie den Schritten, um die Berichtskarte in der Amazon Bedrock-Konsole für RAG-Evaluierungsjobs zu öffnen, die verwenden LLMs. Beziehen Sie sich auf die folgenden Informationen zu jeder Metrik, die für die Bewertungstypen „Nur Abruf“ und „Abruf mit Antwortgenerierung“ relevant ist.

Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die Amazon Bedrock-Konsole unter https://console.aws.amazon.com/bedrock/.
Wählen Sie im Navigationsbereich Evaluationen und anschließend Bewertung der Wissensdatenbank aus.
Wählen Sie den Namen Ihrer Wissensdatenbankbewertungsauftrags aus. Sie werden zur Berichtskarte weitergeleitet, die die Hauptseite der Wissensdatenbankbewertung darstellt.

Anmerkung
Der Status Ihrer RAG-Bewertung muss entweder „bereit“ oder „verfügbar“ sein, damit Sie die Berichtskarte öffnen können.

Metriken, die für Nur-Abruf-Bewertungen relevant sind

Es gibt bestimmte Metriken, die relevant sind, um die Fähigkeit Ihrer Wissensdatenbank zur Beschaffung hochrelevanter Informationen zu bewerten.

Inhalt

Kontextrelevanz

Diese Metrik ist relevant für die Qualität der abgerufenen Informationen. Die Bewertung ist ein Durchschnittswert für die abgerufenen Textblöcke über alle Prompts in Ihrem Datensatz hinweg. Kontextrelevanz bedeutet, dass die abgerufenen Textblöcke für die Fragen kontextrelevant sind. Je höher die Punktzahl, desto kontextrelevanter sind die Informationen im Durchschnitt. Je niedriger die Punktzahl, desto weniger kontextrelevant sind die Informationen im Durchschnitt.

Kontextabdeckung (erfordert Ground Truth)

Diese Metrik ist relevant für die Qualität der abgerufenen Informationen. Die Bewertung ist ein Durchschnittswert für die abgerufenen Textblöcke über alle Prompts in Ihrem Datensatz hinweg. Kontextabdeckung bedeutet, dass die abgerufenen Textblöcke alle in den Ground-Truth-Texten enthaltenen Informationen abdecken. Je höher die Punktzahl, desto mehr Kontextabdeckung im Durchschnitt. Je niedriger die Punktzahl, desto weniger Kontextabdeckung im Durchschnitt.

Metriken, die für Bewertungen vom Typ „Abruf mit Antwortgenerierung“ relevant sind

Es gibt bestimmte Metriken, die relevant sind, um die Fähigkeit Ihrer Wissensdatenbank zu bewerten, nützliche und angemessene Antworten auf Basis der abgerufenen Informationen zu generieren.

Inhalt

Korrektheit

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Korrektheit bedeutet, die Fragen genau zu beantworten. Je höher die Punktzahl, desto korrekter sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger korrekt sind die generierten Antworten im Durchschnitt.

Vollständigkeit

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Vollständigkeit bedeutet, alle Aspekte der Fragen zu beantworten und zu lösen. Je höher die Punktzahl, desto vollständiger sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger vollständig sind die generierten Antworten im Durchschnitt.

Nützlichkeit

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Nützlichkeit bedeutet ganzheitlich nützliche Antworten auf die Fragen. Je höher die Punktzahl, desto nützlicher sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger nützlich sind die generierten Antworten im Durchschnitt.

Logische Kohärenz

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Logische Kohärenz bedeutet, dass die Antworten frei von logischen Lücken, Inkonsistenzen oder Widersprüchen sind. Je höher die Punktzahl, desto kohärenter sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger kohärent sind die generierten Antworten im Durchschnitt.

Treue

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Treue bedeutet, Halluzinationen zu vermeiden, indem man die abgerufenen Textteile respektiert. Je höher die Punktzahl, desto getreuer sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger getreu sind die generierten Antworten im Durchschnitt.

Zitationspräzision

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Die Zitationspräzision ist ein Maß für die Anzahl der zitierten Passagen, die korrekt zitiert wurden. Je höher die Punktzahl, desto mehr Zitate in den Antworten sind im Durchschnitt richtig. Je niedriger die Punktzahl, desto weniger Zitate sind im Durchschnitt richtig.

Wenn Sie sich für die Zitationspräzision entscheiden, sollten Sie auch die Zitationsabdeckung verwenden und umgekehrt. Die Zitationsabdeckung entspricht ungefähr dem Zitations-Recall. Wenn Sie beide zusammen verwenden, erhalten Sie einen vollständigen Überblick über die Qualität der Zitation.

Zitationsabdeckung

Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Die Zitationsabdeckung entspricht ungefähr dem Zitations-Recall und gibt an, wie gut die Antwort durch zitierte Passagen gestützt wird. Je höher die Punktzahl, desto besser werden die Antworten im Durchschnitt durch Zitation gestützt. Je niedriger die Punktzahl, desto weniger gut werden die Antworten im Durchschnitt durch Zitation gestützt.

Wenn Sie sich dafür entscheiden, die Zitationsabdeckung zu verwenden, sollten Sie auch die Zitationspräzision verwenden und umgekehrt. Wenn Sie beide zusammen verwenden, erhalten Sie einen vollständigen Überblick über die Qualität der Zitation.

Schädlichkeit

Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Schädlichkeit bedeutet, hasserfüllte, beleidigende oder gewalttätige Äußerungen zu machen. Je höher die Punktzahl, desto schädlicher sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger schädlich sind die generierten Antworten im Durchschnitt.

Stereotypisierung

Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Stereotypisierung bedeutet, allgemeine Aussagen über Einzelpersonen oder Personengruppen zu treffen. Je höher der Wert, desto mehr wird in den generierten Antworten im Durchschnitt stereotypisiert. Je niedriger der Wert, desto weniger wird in den generierten Antworten im Durchschnitt stereotypisiert. Beachten Sie, dass eine starke Präsenz sowohl schmeichelhafter als auch abwertender Stereotypen zu einer hohen Punktzahl führt.

Verweigerung

Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Verweigerung bedeutet ausweichende Antworten auf die Fragen. Je höher die Punktzahl, desto ausweichender sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger ausweichend sind die generierten Antworten im Durchschnitt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Berichte und Metriken für die Bewertung der Wissensdatenbank

CORS-Anfragen

Überprüfen Sie die Metriken für RAG-Evaluierungen, die LLMs (Konsole) verwenden

Zeugnis für RAG-Evaluationen, die Folgendes verwenden LLMs

Anmerkung

Metriken, die für Nur-Abruf-Bewertungen relevant sind

Inhalt

Kontextrelevanz

Kontextabdeckung (erfordert Ground Truth)

Metriken, die für Bewertungen vom Typ „Abruf mit Antwortgenerierung“ relevant sind

Inhalt

Korrektheit

Vollständigkeit

Nützlichkeit

Logische Kohärenz

Treue

Zitationspräzision

Zitationsabdeckung

Schädlichkeit

Stereotypisierung

Verweigerung