Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Die Modellleistung mit einem anderen LLM-as-a-Judge bewerten
Bei einem Auftrag zur Modellbewertung, der ein Judge-Modell verwendet, setzt Amazon Bedrock ein LLM ein, um die Antworten eines anderen Modells zu bewerten und zu erklären, wie jedes Prompt- und Antwortpaar bewertet wurde. Ergebnisse und Erläuterungen finden Sie auf der Seite für Bewertungen
Für diese Art der Modellbewertung sind zwei verschiedene Modelle erforderlich, ein Generatormodell und ein Evaluatormodell. Sie definieren Prompts für das Generatormodell in einem Datensatz, und das Evaluatormodell bewertet die Antworten auf diese Prompts anhand der von Ihnen ausgewählten Metriken.
Auf der Karte mit der Metrikübersicht in der Konsole wird ein Histogramm angezeigt, das zeigt, wie oft eine Antwort eine bestimmte Punktzahl erhalten hat. Außerdem enthält es Erläuterungen zur Punktzahl für die ersten fünf Prompts in Ihrem Datensatz. Der vollständige Bericht zur Modellbewertung ist im Amazon-S3-Bucket verfügbar, den Sie bei der Erstellung des Auftrags zur Modellbewertung angeben.
Wenn Sie den Auftrag zur Modellbewertung erstellen, können Sie entweder ein Amazon-Bedrock-Modell als Generatormodell auswählen oder Sie können ein Modell bewerten, das nicht von Amazon Bedrock stammt, indem Sie Ihre eigenen Inferenzantwortdaten im Prompt-Datensatz angeben. Wenn Sie Ihre eigenen Antwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und bewertet die von Ihnen bereitgestellten Daten direkt.
Um die Antworten der Generatormodelle zu bewerten, bietet Amazon Bedrock eine Reihe integrierter Metriken, aus denen Sie die gewünschten auswählen können. Jede Metrik verwendet einen anderen Prompt für das Evaluatormodell. Sie können auch eigene benutzerdefinierte Metriken für Ihr spezielles Geschäftsszenario definieren. Weitere Informationen hierzu finden Sie unter Verwenden von Metriken, um die Leistung des Modells zu verstehen.
Unterstützte Modelle
Unterstützte Evaluatormodelle (integrierte Metriken)
Um einen Bewertungsauftrag zu erstellen, der ein LLM-as-a-Judge mit den integrierten Metriken von Amazon Bedrock verwendet, benötigen Sie Zugriff auf mindestens eines der Judge-Modelle in der folgenden Liste. Weitere Informationen zum Zugriff auf Modelle und zur Verfügbarkeit in Regionen finden Sie unter Zugriff auf Amazon-Bedrock-Basismodelle.
-
Amazon Nova Pro –
amazon.nova-pro-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Mistral Large –
mistral.mistral-large-2402-v1:0
Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.
Unterstützte Evaluatormodelle (benutzerdefinierte Metriken)
Um einen Bewertungsauftrag zu erstellen, der ein LLM-as-a-Judge mit benutzerdefinierten Metriken verwendet, benötigen Sie Zugriff auf mindestens eines der Judge-Modelle in der folgenden Liste.
-
Mistral Large 24.02 –
mistral.mistral-large-2402-v1:0 -
Mistral Large 24.07 –
mistral.mistral-large-2407-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku 3 –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3 Haiku 3.5 –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0 -
Amazon Nova Pro –
amazon.nova-pro-v1:0
Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.
Unterstützte Generatormodelle
Sie können die folgenden Modelltypen in Amazon Bedrock als Generatormodell in einem Bewertungsauftrag verwenden. Sie können auch eigene Inferenzantwortdaten aus Modellen nutzen, die nicht von Amazon Bedrock stammen.
-
Basismodelle: Informationen zum Amazon-Bedrock-Basismodell
-
Modelle von Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
-
Benutzerdefinierte Basismodelle: Anpassen des Modells für eine bessere Leistung im jeweiligen Anwendungsfall
-
Importierte Basismodelle: Verwenden des Imports benutzerdefinierter Modelle, um ein benutzerdefiniertes Open-Source-Modell in Amazon Bedrock zu importieren
-
Prompt-Router: Grundlegendes zum intelligenten Prompt Routing in Amazon Bedrock
-
Modelle, für die Sie bereitgestellten Durchsatz erworben haben: Erhöhen Sie die Kapazität für den Modellaufruf mit Provisioned Throughput in Amazon Bedrock