Frage und Antwort zur Modellbewertung in Amazon Bedrock - Amazon Bedrock

Frage und Antwort zur Modellbewertung in Amazon Bedrock

Frage und Antwort wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. Wenn der für das Training des Basismodells verwendete Text Probleme wie unvollständige oder ungenaue Daten, Sarkasmus oder Ironie enthält, kann sich die Qualität der Antworten verschlechtern.

Wichtig

Bei Frage und Antwort besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp „Frage und Antwort“ empfohlen.

BoolQ

BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

Natural Questions

Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.

TriviaQA

TriviaQA ist ein Datensatz, der über 650 000 Frage-Antwort-Evidenz-Tripel enthält. Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte Integrierte Datensätze (API).

Verfügbare integrierte Datensätze für den Aufgabentyp „Frage und Antwort“ in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze (Konsole) Integrierte Datensätze (API) Berechnete Metrik
Frage und Antwort Accuracy BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Robustheit BoolQ Builtin.BoolQ

F1 und deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
Toxizität BoolQ Builtin.BoolQ Toxizität
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock.