Aufgabentypen zur Modellbewertung in Amazon Bedrock
In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.
In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.
| Aufgabentyp | Metrik | Integrierte Datensätze | Berechnete Metrik |
|---|---|---|---|
| Allgemeine Textgenerierung | Accuracy | TREX |
Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK) |
| Robustheit | Wortfehlerrate | ||
| TREX |
|||
| WikiText2 |
|||
| Toxizität | Toxizität | ||
| BOLD |
|||
| Textzusammenfassung | Accuracy | Gigaword |
BERTScore |
| Toxizität | Gigaword |
Toxizität | |
| Robustheit | Gigaword |
BERTScore und deltaBERTScore | |
| Frage und Antwort | Accuracy | BoolQ |
NLP-F1 |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Robustheit | BoolQ |
F1 und deltaF1 | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Toxizität | BoolQ |
Toxizität | |
| NaturalQuestions |
|||
| TriviaQA |
|||
| Textklassifizierung | Accuracy | Women's Ecommerce Clothing Reviews |
Genauigkeit (binäre Genauigkeit aus classification_accuracy_score) |
| Robustheit | Women's Ecommerce Clothing Reviews |
classification_accuracy_score und delta_classification_accuracy_score |