Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bewerten Sie die Modellleistung mit einem anderen LLM als Richter
Bei einem Model-Evaluierungsjob, der ein Richtermodell verwendet, verwendet Amazon Bedrock ein LLM, um die Antworten eines anderen Modells zu bewerten und zu erklären, wie jedes Prompt- und Antwortpaar bewertet wurde. Ergebnisse und Erläuterungen sind in der Amazon Bedrock-Konsole auf der Bewertungsseite
Für diese Art der Modellevaluierung sind zwei verschiedene Modelle erforderlich, ein Generatormodell und ein Evaluatormodell. Sie definieren Prompts für das Generatormodell in einem Datensatz, und das Evaluator-Modell bewertet die Antworten auf diese Prompts anhand der von Ihnen ausgewählten Metriken.
Auf der Übersichtskarte mit den Kennzahlen in der Konsole wird ein Histogramm angezeigt, das zeigt, wie oft eine Antwort eine bestimmte Punktzahl erhalten hat, sowie Erläuterungen zur Punktzahl für die ersten fünf Eingabeaufforderungen in Ihrem Datensatz. Der vollständige Evaluierungsjobbericht ist in dem Amazon S3 S3-Bucket verfügbar, den Sie bei der Erstellung des Modellevaluierungsjobs angeben.
Wenn Sie den Modellevaluierungsjob erstellen, können Sie entweder ein Amazon Bedrock-Modell als Generatormodell auswählen oder Sie können ein Modell auswerten, das nicht von Amazon Bedrock stammt, indem Sie Ihre eigenen Inferenzantwortdaten im Prompt-Datensatz angeben. Wenn Sie Ihre eigenen Antwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und wertet die von Ihnen bereitgestellten Daten direkt aus.
Um die Antworten der Generatormodelle zu bewerten, bietet Amazon Bedrock eine Reihe integrierter Metriken, aus denen Sie auswählen können. Jede Metrik verwendet eine andere Eingabeaufforderung für das Evaluatormodell. Sie können auch Ihre eigenen benutzerdefinierten Metriken für Ihren speziellen Geschäftsszenario definieren. Weitere Informationen hierzu finden Sie unter Verwenden Sie Metriken, um die Modellleistung zu verstehen.
Unterstützte Modelle
Unterstützte Evaluatormodelle (integrierte Metriken)
Um einen Bewertungsjob zu erstellen, der einen LLM als Richter mit den integrierten Metriken von Amazon Bedrock verwendet, benötigen Sie Zugriff auf mindestens eines der Richtermodelle in der folgenden Liste. Weitere Informationen zum Zugriff auf Modelle und zur Verfügbarkeit in Regionen finden Sie unter. Greifen Sie auf Amazon Bedrock Foundation-Modelle zu
-
Amazon Nova Pro –
amazon.nova-pro-v1:0
-
AnthropicClaude 3.5 Sonnetv1 —
anthropic.claude-3-5-sonnet-20240620-v1:0
-
AnthropicClaude 3.5 Sonnetv2 —
anthropic.claude-3-5-sonnet-20241022-v2:0
-
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0
-
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
Mistral Large –
mistral.mistral-large-2402-v1:0
Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.
Unterstützte Evaluatormodelle (benutzerdefinierte Metriken)
Um einen Bewertungsjob zu erstellen, der einen LLM als Richter mit benutzerdefinierten Metriken verwendet, benötigen Sie Zugriff auf mindestens eines der Richtermodelle in der folgenden Liste.
-
Mistral Large24.02 —
mistral.mistral-large-2402-v1:0
-
Mistral Large24,07 —
mistral.mistral-large-2407-v1:0
-
AnthropicClaude 3.5 Sonnetv1 —
anthropic.claude-3-5-sonnet-20240620-v1:0
-
AnthropicClaude 3.5 Sonnetv2 —
anthropic.claude-3-5-sonnet-20241022-v2:0
-
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0
-
AnthropicClaude 3 Haiku3 —
anthropic.claude-3-haiku-20240307-v1:0
-
AnthropicClaude 3 Haiku3,5 —
anthropic.claude-3-5-haiku-20241022-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0
-
Amazon Nova Pro –
amazon.nova-pro-v1:0
Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.
Unterstützte Generatormodelle
Sie können die folgenden Modelltypen in Amazon Bedrock als Generatormodell in einem Evaluierungsjob verwenden. Sie können auch Ihre eigenen Inferenzantwortdaten von Bedrock-Modellen mitbringen, die nicht von Amazon stammen.
-
Grundlegende Modelle — Informationen zum Modell der Amazon Bedrock Foundation
-
Amazon Bedrock Marketplace-Modelle — Amazon Bedrock Marketplace
-
Maßgeschneiderte Fundamentmodelle — Passen Sie Ihr Modell an, um seine Leistung für Ihren Anwendungsfall zu verbessern
-
Importierte Fundamentmodelle — Importieren Sie ein benutzerdefiniertes Modell in Amazon Bedrock
-
Router einholen — Intelligentes Prompt-Routing in Amazon Bedrock verstehen
-
Modelle, für die Sie Provisioned Throughput erworben haben — Erhöhen Sie die Kapazität für den Modellaufruf mit Provisioned Throughput in Amazon Bedrock