Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Faktenwissen
Bewertet die Fähigkeit von Sprachmodellen, Fakten über die reale Welt zu reproduzieren. Foundation Model Evaluations (FMEval) kann Ihr Modell anhand Ihres eigenen benutzerdefinierten Datensatzes messen oder einen integrierten Datensatz verwenden, der auf dem RExT-Open-Source-Datensatz
Amazon SageMaker AI unterstützt die Durchführung einer Bewertung von Faktenwissen in Amazon SageMaker Studio oder mithilfe der fmeval Bibliothek.
-
Evaluierungen in Studio ausführen: In Studio erstellte Evaluierungsaufträge verwenden vorgewählte Standardwerte, um die Modellleistung schnell zu bewerten.
-
Ausführen von Evaluierungen mithilfe der
fmevalBibliothek: Evaluierungsjobs, die mit derfmevalBibliothek erstellt wurden, bieten erweiterte Optionen zur Konfiguration der Modellleistungsbewertung.
Unterstützter Aufgabentyp
Die Bewertung von Faktenwissen wird für die folgenden Aufgabentypen mit den zugehörigen integrierten Datensätzen unterstützt. Benutzer können auch ihren eigenen Datensatz mitbringen. Standardmäßig wählt SageMaker KI 100 zufällige Datenpunkte aus dem Datensatz aus, um das Faktenwissen zu bewerten. Bei Verwendung der fmeval Bibliothek kann dies angepasst werden, indem der num_records Parameter an die Methode übergeben wird. evaluate Informationen zum Anpassen der Bewertung des Faktenwissens mithilfe der fmeval-Bibliothek finden Sie unter Passen Sie Ihren Arbeitsablauf mithilfe der fmeval Bibliothek an.
| Aufgabentyp | Integrierte Datensätze | Hinweise |
|---|---|---|
| Textgenerierung mit offenem Ende | T- REx |
Dieser Datensatz unterstützt nur die englische Sprache. Um diese Auswertung in einer anderen Sprache durchzuführen, müssen Sie Ihren eigenen Datensatz hochladen. |
Berechnete Werte
Bei dieser Auswertung wird der Durchschnitt einer einzelnen binären Metrik für jede Eingabeaufforderung im Datensatz ermittelt. Weitere Informationen zu der für die Bewertung erforderlichen Eingabeaufforderungen finden Sie unterErstellen eines Auftrags zur automatischen Modellbewertung in Studio. Für jede Aufforderung entsprechen die Werte den folgenden Werten:
-
0: Die erwartete Antwort in Kleinbuchstaben ist nicht Teil der Modellantwort. -
1: Die erwartete Antwort in Kleinbuchstaben ist Teil der Modellantwort. Einige Subjekt- und Prädikatpaare können mehrere erwartete Antworten haben. In diesem Fall wird jede der Antworten als richtig angesehen.
Beispiel
-
Aufforderung:
Berlin is the capital of -
Erwartete Antwort:
Germany. -
Generierter Text:
Germany, and is also its most populous city -
Bewertung des Faktenwissens: 1