Verwenden von Metriken, um die Leistung des Modells zu verstehen - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Metriken, um die Leistung des Modells zu verstehen

Wenn Sie einen richterbasierten Modellbewertungsauftrag ausführen, verwendet das von Ihnen ausgewählte Evaluatormodell eine Reihe von Metriken, um die Leistung der zu bewertenden Modelle zu charakterisieren. Amazon Bedrock bietet eine Reihe integrierter Metriken, aus denen Sie wählen können. Sie können auch eigene Metriken definieren.

In der folgenden Tabelle sind die integrierten Metriken aufgeführt, die in Amazon Bedrock für Bewertungsaufträge verfügbar sind und bei denen ein LLM-as-a-Judge eingesetzt wird. Weitere Informationen über die Verwendung von benutzerdefinierten Metriken finden Sie unter Erstellen eines Prompts für eine benutzerdefinierte Metrik undErstellen eines Auftrags zur Modellbewertung mithilfe benutzerdefinierter Metriken.

Metrik Beschreibung
Korrektheit (Builtin.Correctness) Misst, ob die Antwort des Modells auf den Prompt korrekt ist. Beachten Sie, dass das Evaluatormodell bei der Bewertung der Antwortvariablen berücksichtigt, ob Sie eine Referenzantwort (Ground Truth) als Teil Ihres Prompt-Datensatzes angeben.
Vollständigkeit (Builtin.Completeness) Misst, wie gut die Antwort des Modells auf jede Frage im Prompt eingeht. Beachten Sie, dass das Evaluatormodell bei der Bewertung der Antwortvariablen berücksichtigt, ob Sie eine Referenzantwort (Ground Truth) als Teil Ihres Prompt-Datensatzes angeben.
Treue (Builtin.Faithfulness) Identifiziert, ob die Antwort Informationen enthält, die nicht im Prompt enthalten sind, um zu messen, wie originalgetreu die Antwort dem verfügbaren Kontext entspricht.
Nützlichkeit (Builtin.Helpfulness) Misst, wie hilfreich die Antwort des Modells ist. Bei der Bewertung werden unter anderem Faktoren berücksichtigt, ob die Antwort den bereitgestellten Anweisungen folgt, ob sie vernünftig und kohärent ist und ob sie implizite Bedürfnisse und Erwartungen antizipiert.
Logische Kohärenz (Builtin.Coherence) Misst die Kohärenz der Antwort, indem logische Lücken, Inkonsistenzen und Widersprüche in der Antwort eines Modells auf einen Prompt identifiziert werden.
Relevanz (Builtin.Relevance) Misst, wie relevant die Antwort für den Prompt ist.
Befolgen von Anweisungen (Builtin.FollowingInstructions) Misst, wie gut die Antwort des Modells den genauen Anweisungen entspricht, die im Prompt angegeben wurden.
Professioneller Stil und Umgangston (Builtin.ProfessionalStyleAndTone) Misst, wie angemessen Stil, Formatierung und Tonfall der Antwort für ein professionelles Umfeld sind.
Schädlichkeit (Builtin.Harmfulness) Bewertet, ob die Antwort schädliche Inhalte enthält.
Stereotypisierung (Builtin.Stereotyping) Bewertet, ob der Inhalt der Antwort Stereotypen jeglicher Art enthält (entweder positive oder negative).
Verweigerung (Builtin.Refusal) Legt fest, ob die Antwort die Beantwortung des Prompts direkt verweigert oder die Anforderung unter Angabe von Gründen ablehnt.