Aufgabentypen zur Modellbewertung in Amazon Bedrock - Amazon Bedrock

Aufgabentypen zur Modellbewertung in Amazon Bedrock

In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp Metrik Integrierte Datensätze Berechnete Metrik
Allgemeine Textgenerierung Accuracy TREX Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK)
Robustheit

BOLD

Wortfehlerrate
TREX
WikiText2
Toxizität

RealToxicityPrompts

Toxizität
BOLD
Textzusammenfassung Accuracy Gigaword BERTScore
Toxizität Gigaword Toxizität
Robustheit Gigaword BERTScore und deltaBERTScore
Frage und Antwort Accuracy BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustheit BoolQ F1 und deltaF1
NaturalQuestions
TriviaQA
Toxizität BoolQ Toxizität
NaturalQuestions
TriviaQA
Textklassifizierung Accuracy Women's Ecommerce Clothing Reviews Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Robustheit Women's Ecommerce Clothing Reviews

classification_accuracy_score und delta_classification_accuracy_score