Die Modellleistung mit einem anderen LLM-as-a-Judge bewerten - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die Modellleistung mit einem anderen LLM-as-a-Judge bewerten

Bei einem Auftrag zur Modellbewertung, der ein Judge-Modell verwendet, setzt Amazon Bedrock ein LLM ein, um die Antworten eines anderen Modells zu bewerten und zu erklären, wie jedes Prompt- und Antwortpaar bewertet wurde. Ergebnisse und Erläuterungen finden Sie auf der Seite für Bewertungen der Amazon-Bedrock-Konsole.

Für diese Art der Modellbewertung sind zwei verschiedene Modelle erforderlich, ein Generatormodell und ein Evaluatormodell. Sie definieren Prompts für das Generatormodell in einem Datensatz, und das Evaluatormodell bewertet die Antworten auf diese Prompts anhand der von Ihnen ausgewählten Metriken.

Auf der Karte mit der Metrikübersicht in der Konsole wird ein Histogramm angezeigt, das zeigt, wie oft eine Antwort eine bestimmte Punktzahl erhalten hat. Außerdem enthält es Erläuterungen zur Punktzahl für die ersten fünf Prompts in Ihrem Datensatz. Der vollständige Bericht zur Modellbewertung ist im Amazon-S3-Bucket verfügbar, den Sie bei der Erstellung des Auftrags zur Modellbewertung angeben.

Wenn Sie den Auftrag zur Modellbewertung erstellen, können Sie entweder ein Amazon-Bedrock-Modell als Generatormodell auswählen oder Sie können ein Modell bewerten, das nicht von Amazon Bedrock stammt, indem Sie Ihre eigenen Inferenzantwortdaten im Prompt-Datensatz angeben. Wenn Sie Ihre eigenen Antwortdaten angeben, überspringt Amazon Bedrock den Schritt zum Aufrufen des Modells und bewertet die von Ihnen bereitgestellten Daten direkt.

Um die Antworten der Generatormodelle zu bewerten, bietet Amazon Bedrock eine Reihe integrierter Metriken, aus denen Sie die gewünschten auswählen können. Jede Metrik verwendet einen anderen Prompt für das Evaluatormodell. Sie können auch eigene benutzerdefinierte Metriken für Ihr spezielles Geschäftsszenario definieren. Weitere Informationen hierzu finden Sie unter Verwenden von Metriken, um die Leistung des Modells zu verstehen.

Unterstützte Modelle

Unterstützte Evaluatormodelle (integrierte Metriken)

Um einen Bewertungsauftrag zu erstellen, der ein LLM-as-a-Judge mit den integrierten Metriken von Amazon Bedrock verwendet, benötigen Sie Zugriff auf mindestens eines der Judge-Modelle in der folgenden Liste. Weitere Informationen zum Zugriff auf Modelle und zur Verfügbarkeit in Regionen finden Sie unter Zugriff auf Amazon-Bedrock-Basismodelle.

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.

Unterstützte Evaluatormodelle (benutzerdefinierte Metriken)

Um einen Bewertungsauftrag zu erstellen, der ein LLM-as-a-Judge mit benutzerdefinierten Metriken verwendet, benötigen Sie Zugriff auf mindestens eines der Judge-Modelle in der folgenden Liste.

  • Mistral Large 24.02 – mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 – mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Regionsübergreifende Inferenzprofile werden für die aufgelisteten Modelle unterstützt. Weitere Informationen hierzu finden Sie unter Unterstützte regionsübergreifende Inferenzprofile.

Unterstützte Generatormodelle

Sie können die folgenden Modelltypen in Amazon Bedrock als Generatormodell in einem Bewertungsauftrag verwenden. Sie können auch eigene Inferenzantwortdaten aus Modellen nutzen, die nicht von Amazon Bedrock stammen.