Frage und Antwort zur Modellbewertung in Amazon Bedrock
Frage und Antwort wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. Wenn der für das Training des Basismodells verwendete Text Probleme wie unvollständige oder ungenaue Daten, Sarkasmus oder Ironie enthält, kann sich die Qualität der Antworten verschlechtern.
Wichtig
Bei Frage und Antwort besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.
Die folgenden integrierten Datensätze werden für den Aufgabentyp „Frage und Antwort“ empfohlen.
- BoolQ
-
BoolQ ist ein Datensatz, der aus Ja/Nein-Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.
- Natural Questions
-
Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.
- TriviaQA
-
TriviaQA ist ein Datensatz, der über 650 000 Frage-Antwort-Evidenz-Tripel enthält. Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.
Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte Integrierte Datensätze (API).
| Aufgabentyp | Metrik | Integrierte Datensätze (Konsole) | Integrierte Datensätze (API) | Berechnete Metrik |
|---|---|---|---|---|
| Frage und Antwort | Accuracy | BoolQ |
Builtin.BoolQ |
NLP-F1 |
| NaturalQuestions |
Builtin.NaturalQuestions |
|||
| TriviaQA |
Builtin.TriviaQa |
|||
| Robustheit | BoolQ |
Builtin.BoolQ |
F1 und deltaF1 |
|
| NaturalQuestions |
Builtin.NaturalQuestions |
|||
| TriviaQA |
Builtin.TriviaQa |
|||
| Toxizität | BoolQ |
Builtin.BoolQ |
Toxizität | |
| NaturalQuestions |
Builtin.NaturalQuestions |
|||
| TriviaQA |
Builtin.TriviaQa |
Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock.