Bewerten Sie die Modellleistung mit einem anderen LLM als Richter

Bei einem Model-Evaluierungsjob, der ein Richtermodell verwendet, verwendet Amazon Bedrock ein LLM, um die Antworten eines anderen Modells zu bewerten und zu erklären, wie jedes Prompt- und Antwortpaar bewertet wurde. Ergebnisse und Erläuterungen sind in der Amazon Bedrock-Konsole auf der Bewertungsseite verfügbar.

Für diese Art der Modellevaluierung sind zwei verschiedene Modelle erforderlich, ein Generatormodell und ein Evaluatormodell. Sie definieren Prompts für das Generatormodell in einem Datensatz, und das Evaluator-Modell bewertet die Antworten auf diese Prompts anhand der von Ihnen ausgewählten Metriken.

Auf der Übersichtskarte mit den Kennzahlen in der Konsole wird ein Histogramm angezeigt, das zeigt, wie oft eine Antwort eine bestimmte Punktzahl erhalten hat, sowie Erläuterungen zur Punktzahl für die ersten fünf Eingabeaufforderungen in Ihrem Datensatz. Der vollständige Evaluierungsjobbericht ist in dem Amazon S3 S3-Bucket verfügbar, den Sie bei der Erstellung des Modellevaluierungsjobs angeben.

Wenn Sie den Modellevaluierungsjob erstellen, können Sie entweder ein Amazon Bedrock-Modell als Generatormodell auswählen oder Sie können ein Modell auswerten, das nicht von Amazon Bedrock stammt, indem Sie Ihre eigenen Inferenzantwortdaten im Prompt-Datensatz angeben. Wenn Sie Ihre eigenen Antwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und wertet die von Ihnen bereitgestellten Daten direkt aus.

Um die Antworten der Generatormodelle zu bewerten, bietet Amazon Bedrock eine Reihe integrierter Metriken, aus denen Sie auswählen können. Jede Metrik verwendet eine andere Eingabeaufforderung für das Evaluatormodell. Sie können auch Ihre eigenen benutzerdefinierten Metriken für Ihren speziellen Geschäftsszenario definieren. Weitere Informationen hierzu finden Sie unter Verwenden Sie Metriken, um die Modellleistung zu verstehen.

Unterstützte Modelle

Unterstützte Evaluatormodelle (integrierte Metriken)

Um einen Bewertungsjob zu erstellen, der einen LLM als Richter mit den integrierten Metriken von Amazon Bedrock verwendet, benötigen Sie Zugriff auf mindestens eines der Richtermodelle in der folgenden Liste. Weitere Informationen zum Zugriff auf Modelle und zur Verfügbarkeit in Regionen finden Sie unter. Greifen Sie auf Amazon Bedrock Foundation-Modelle zu

Amazon Nova Pro – amazon.nova-pro-v1:0
AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0
AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.

Unterstützte Evaluatormodelle (benutzerdefinierte Metriken)

Um einen Bewertungsjob zu erstellen, der einen LLM als Richter mit benutzerdefinierten Metriken verwendet, benötigen Sie Zugriff auf mindestens eines der Richtermodelle in der folgenden Liste.

Mistral Large24.02 — mistral.mistral-large-2402-v1:0
Mistral Large24,07 — mistral.mistral-large-2407-v1:0
AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0
AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0
AnthropicClaude 3 Haiku3,5 — anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0

Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.

Unterstützte Generatormodelle

Sie können die folgenden Modelltypen in Amazon Bedrock als Generatormodell in einem Evaluierungsjob verwenden. Sie können auch Ihre eigenen Inferenzantwortdaten von Bedrock-Modellen mitbringen, die nicht von Amazon stammen.

Grundlegende Modelle — Informationen zum Modell der Amazon Bedrock Foundation
Amazon Bedrock Marketplace-Modelle — Amazon Bedrock Marketplace
Maßgeschneiderte Fundamentmodelle — Passen Sie Ihr Modell an, um seine Leistung für Ihren Anwendungsfall zu verbessern
Importierte Fundamentmodelle — Verwenden Sie den Import benutzerdefinierter Modelle, um ein benutzerdefiniertes Open-Source-Modell in Amazon Bedrock zu importieren
Router einholen — Grundlegendes zum intelligenten Prompt-Routing in Amazon Bedrock
Modelle, für die Sie Provisioned Throughput erworben haben — Bereitgestellter Durchsatz

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Managen Sie ein Arbeitsteam für menschliche Bewertungen

Prompt-Datensätze