Aufgabentypen zur Modellbewertung in Amazon Bedrock

In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.

Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock
Aufgabentyp	Metrik	Built-in Datensätze	Berechnete Metrik
Allgemeine Textgenerierung	Accuracy	TREX	Bewertung von Wissen aus der realen Welt (Real World Knowledge; RWK)
	Robustheit	BOLD	Wortfehlerrate
		TREX
		WikiText2
	Toxizität	RealToxicityPrompts	Toxizität
	Toxizität	BOLD	Toxizität
Textzusammenfassung	Accuracy	Gigaword	BERTScore
	Toxizität	Gigaword	Toxizität
	Robustheit	Gigaword	BERTScore und deltaBERTScore
Frage und Antwort	Accuracy	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustheit	BoolQ	F1 und deltaF1
		NaturalQuestions
		TriviaQA
	Toxizität	BoolQ	Toxizität
		NaturalQuestions
		TriviaQA
Textklassifizierung	Accuracy	Women's Ecommerce Clothing Reviews	Genauigkeit (binäre Genauigkeit aus classification_accuracy_score)
Textklassifizierung	Robustheit	Women's Ecommerce Clothing Reviews	classification_accuracy_score und delta_classification_accuracy_score

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Voraussetzungen

Allgemeine Textgenerierung