Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überprüfen der Metriken für RAG-Bewertungen, die LLMs verwenden (Konsole)
Sie können die in einem Bericht dargestellten Metriken für einen RAG-Bewertungsauftrag über die Amazon-Bedrock-Konsole einsehen.
RAG-Bewertungen, die große Sprachmodelle (LLMs) verwenden, berechnen Bewertungsmetriken, um die Leistung der Amazon-Bedrock-Wissensdatenbank oder einer externen RAG-Quelle bei der Informationsbeschaffung und Antwortgenerierung zu beurteilen.
In Ihrer RAG-Bewertungskarte sehen Sie die Metriken sowie die Aufschlüsselungsgrafiken der Metriken, die für Ihren Bewertungstyp relevant sind – Entweder nur Abruf oder Abruf mit Antwortgenerierung. Verschiedene Metriken sind für unterschiedliche Bewertungstypen relevant. Die berechneten Werte für jede Metrik stellen einen Durchschnittswert der abgerufenen Texte oder generierten Antworten über alle Benutzeranfragen in Ihrem Prompt-Datensatz dar. Der berechnete Wert für jede Metrik ist ein Wert zwischen 0 und 1. Je näher der Wert an 1 liegt, desto stärker ist die jeweilige Eigenschaft der Metrik in den abgerufenen Texten oder Antworten ausgeprägt. Die Aufschlüsselungsgrafiken für jede Metrik zeigen ein Histogramm und zählen, wie viele abgerufene Texte oder Antworten für die Anfragen in die jeweiligen Bewertungsbereiche fallen.
Beispielsweise haben Sie einen Bewertungsauftrag erstellt, um die Leistung beim Abruf mit Antwortgenerierung zu bewerten. In der Berichtskarte der Konsole wird für die Vollständigkeit der Antworten ein Wert von 0,82 berechnet. Der Vollständigkeitswert gibt an, wie generierte Antworten alle Aspekte der Benutzerfragen behandeln. Er wird als Durchschnittswert für die Antworten auf Fragen über alle Prompts in Ihrem Datensatz berechnet. Das Histogramm für Vollständigkeit zeigt, dass die meisten Antworten (höchster Balken) im Bereich der Vollständigkeitsbewertung zwischen 0,7 und 0,8 liegen. Die Wissensdatenbank erzielte jedoch auch einen hohen Wert beim Merkmal „Stereotypisierung“, bei dem verallgemeinernde Aussagen in den Antworten gemacht werden – Mit einem durchschnittlichen Wert von 0,94. Die Wissensdatenbank kann meistens recht vollständige Antworten generieren, jedoch enthalten diese Antworten häufig eine große Anzahl verallgemeinernder Aussagen über Einzelpersonen oder Personengruppen.
Berichtskarte für RAG-Bewertungen, bei denen LLMs verwendet werden
Folgen Sie den Schritten, um die Berichtskarte in der Amazon-Bedrock-Konsole für RAG-Bewertungsaufträge zu öffnen, die LLMs verwenden. Beziehen Sie sich auf die folgenden Informationen zu jeder Metrik, die für die Bewertungstypen „Nur Abruf“ und „Abruf mit Antwortgenerierung“ relevant ist.
-
Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon-Bedrock-Konsole unter https://console.aws.amazon.com/bedrock/
. -
Wählen Sie im Navigationsbereich Evaluationen und anschließend Bewertung der Wissensdatenbank aus.
-
Wählen Sie den Namen Ihrer Wissensdatenbankbewertungsauftrags aus. Sie werden zur Berichtskarte weitergeleitet, die die Hauptseite der Wissensdatenbankbewertung darstellt.
Anmerkung
Der Status Ihrer RAG-Bewertung muss entweder „bereit“ oder „verfügbar“ sein, damit Sie die Berichtskarte öffnen können.
Metriken, die für Nur-Abruf-Bewertungen relevant sind
Es gibt bestimmte Metriken, die relevant sind, um die Fähigkeit Ihrer Wissensdatenbank zur Beschaffung hochrelevanter Informationen zu bewerten.
Kontextrelevanz
Diese Metrik ist relevant für die Qualität der abgerufenen Informationen. Die Bewertung ist ein Durchschnittswert für die abgerufenen Textblöcke über alle Prompts in Ihrem Datensatz hinweg. Kontextrelevanz bedeutet, dass die abgerufenen Textblöcke für die Fragen kontextrelevant sind. Je höher die Punktzahl, desto kontextrelevanter sind die Informationen im Durchschnitt. Je niedriger die Punktzahl, desto weniger kontextrelevant sind die Informationen im Durchschnitt.
Kontextabdeckung (erfordert Ground Truth)
Diese Metrik ist relevant für die Qualität der abgerufenen Informationen. Die Bewertung ist ein Durchschnittswert für die abgerufenen Textblöcke über alle Prompts in Ihrem Datensatz hinweg. Kontextabdeckung bedeutet, dass die abgerufenen Textblöcke alle in den Ground-Truth-Texten enthaltenen Informationen abdecken. Je höher die Punktzahl, desto mehr Kontextabdeckung im Durchschnitt. Je niedriger die Punktzahl, desto weniger Kontextabdeckung im Durchschnitt.
Metriken, die für Bewertungen vom Typ „Abruf mit Antwortgenerierung“ relevant sind
Es gibt bestimmte Metriken, die relevant sind, um die Fähigkeit Ihrer Wissensdatenbank zu bewerten, nützliche und angemessene Antworten auf Basis der abgerufenen Informationen zu generieren.
Inhalt
Korrektheit
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Korrektheit bedeutet, die Fragen genau zu beantworten. Je höher die Punktzahl, desto korrekter sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger korrekt sind die generierten Antworten im Durchschnitt.
Vollständigkeit
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Vollständigkeit bedeutet, alle Aspekte der Fragen zu beantworten und zu lösen. Je höher die Punktzahl, desto vollständiger sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger vollständig sind die generierten Antworten im Durchschnitt.
Nützlichkeit
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Nützlichkeit bedeutet ganzheitlich nützliche Antworten auf die Fragen. Je höher die Punktzahl, desto nützlicher sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger nützlich sind die generierten Antworten im Durchschnitt.
Logische Kohärenz
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Logische Kohärenz bedeutet, dass die Antworten frei von logischen Lücken, Inkonsistenzen oder Widersprüchen sind. Je höher die Punktzahl, desto kohärenter sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger kohärent sind die generierten Antworten im Durchschnitt.
Treue
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Treue bedeutet, Halluzinationen zu vermeiden, indem man die abgerufenen Textteile respektiert. Je höher die Punktzahl, desto getreuer sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger getreu sind die generierten Antworten im Durchschnitt.
Zitationspräzision
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Die Zitationspräzision ist ein Maß für die Anzahl der zitierten Passagen, die korrekt zitiert wurden. Je höher die Punktzahl, desto mehr Zitate in den Antworten sind im Durchschnitt richtig. Je niedriger die Punktzahl, desto weniger Zitate sind im Durchschnitt richtig.
Wenn Sie sich für die Zitationspräzision entscheiden, sollten Sie auch die Zitationsabdeckung verwenden und umgekehrt. Die Zitationsabdeckung entspricht ungefähr dem Zitations-Recall. Wenn Sie beide zusammen verwenden, erhalten Sie einen vollständigen Überblick über die Qualität der Zitation.
Zitationsabdeckung
Diese Metrik ist relevant für die Qualität der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Die Zitationsabdeckung entspricht ungefähr dem Zitations-Recall und gibt an, wie gut die Antwort durch zitierte Passagen gestützt wird. Je höher die Punktzahl, desto besser werden die Antworten im Durchschnitt durch Zitation gestützt. Je niedriger die Punktzahl, desto weniger gut werden die Antworten im Durchschnitt durch Zitation gestützt.
Wenn Sie sich dafür entscheiden, die Zitationsabdeckung zu verwenden, sollten Sie auch die Zitationspräzision verwenden und umgekehrt. Wenn Sie beide zusammen verwenden, erhalten Sie einen vollständigen Überblick über die Qualität der Zitation.
Schädlichkeit
Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Schädlichkeit bedeutet, hasserfüllte, beleidigende oder gewalttätige Äußerungen zu machen. Je höher die Punktzahl, desto schädlicher sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger schädlich sind die generierten Antworten im Durchschnitt.
Stereotypisierung
Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Stereotypisierung bedeutet, allgemeine Aussagen über Einzelpersonen oder Personengruppen zu treffen. Je höher der Wert, desto mehr wird in den generierten Antworten im Durchschnitt stereotypisiert. Je niedriger der Wert, desto weniger wird in den generierten Antworten im Durchschnitt stereotypisiert. Beachten Sie, dass eine starke Präsenz sowohl schmeichelhafter als auch abwertender Stereotypen zu einer hohen Punktzahl führt.
Verweigerung
Diese Metrik ist relevant für die Angemessenheit der generierten Antworten. Die Bewertung ist ein Durchschnittswert für Antworten über alle Prompts in Ihrem Datensatz hinweg. Verweigerung bedeutet ausweichende Antworten auf die Fragen. Je höher die Punktzahl, desto ausweichender sind die generierten Antworten im Durchschnitt. Je niedriger die Punktzahl, desto weniger ausweichend sind die generierten Antworten im Durchschnitt.