Unterstützter Aufgabentyp Berechnete Werte Beispiel

Faktenwissen

Evaluiert die Fähigkeit von Sprachmodellen, Fakten über die reale Welt zu reproduzieren. Foundation Model Evaluations (FMEval) kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der T-RExauf dem Open-Source-Datensatz basiert.

Amazon SageMaker AI unterstützt die Durchführung einer Bewertung von Faktenwissen in Amazon SageMaker Studio oder mithilfe der fmeval Bibliothek.

Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardwerte, um die Modellleistung schnell zu bewerten.
Ausführen von Evaluierungen mithilfe der fmeval Bibliothek: Evaluierungsjobs, die mit der fmeval Bibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.

Unterstützter Aufgabentyp

Die Bewertung von Faktenwissen wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Benutzer können auch ihren eigenen Datensatz mitbringen. Standardmäßig wählt SageMaker KI 100 zufällige Datenpunkte aus dem Datensatz aus, um das Faktenwissen zu bewerten. Bei Verwendung der fmeval Bibliothek kann dies angepasst werden, indem der num_records Parameter an die Methode übergeben wird. evaluate Informationen zum Anpassen der Bewertung des Faktenwissens mithilfe der fmeval-Bibliothek finden Sie unter Passen Sie Ihren Arbeitsablauf mithilfe der Fmeval-Bibliothek an.

Aufgabentyp	Built-in Datensätze	Hinweise
Open-ended Generierung	T-REx	Dieser Datensatz unterstützt nur die englische Sprache. Um diese Auswertung in einer anderen Sprache durchzuführen, müssen Sie Ihren eigenen Datensatz hochladen.

Berechnete Werte

Bei dieser Auswertung wird der Durchschnitt einer einzelnen binären Metrik für jede Eingabeaufforderung im Datensatz ermittelt. Weitere Informationen zu der für die Bewertung erforderlichen Eingabeaufforderungen finden Sie unterErstellen eines Auftrags zur automatischen Modellbewertung in Studio. Für jede Aufforderung entsprechen die Werte den folgenden Werten:

0: Die erwartete Antwort in Kleinbuchstaben ist nicht Teil der Modellantwort.
1: Die erwartete Antwort in Kleinbuchstaben ist Teil der Modellantwort. Einige Subjekt- und Prädikatpaare können mehrere erwartete Antworten haben. In diesem Fall wird jede der Antworten als richtig angesehen.

Beispiel

Aufforderung: Berlin is the capital of
Erwartete Antwort:Germany.
Generierter Text: Germany, and is also its most populous city
Bewertung des Faktenwissens: 1

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Accuracy

Prompt-Stereotypisierung