Évaluez les performances du modèle en utilisant un autre LLM comme juge - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluez les performances du modèle en utilisant un autre LLM comme juge

Dans le cadre d'une tâche d'évaluation de modèle utilisant un modèle de juge, Amazon Bedrock utilise un LLM pour évaluer les réponses d'un autre modèle et expliquer comment il a noté chaque paire d'invite et de réponse. Les scores et les explications sont disponibles dans la console Amazon Bedrock via la page des évaluations.

Ce type d'évaluation de modèle nécessite deux modèles différents, un modèle de générateur et un modèle d'évaluateur. Vous définissez des instructions pour le modèle de générateur dans un ensemble de données, et le modèle d'évaluateur note les réponses à ces demandes en fonction des mesures que vous sélectionnez.

La fiche récapitulative des mesures de la console affiche un histogramme qui indique le nombre de fois qu'une réponse a reçu un certain score, ainsi que des explications du score pour les cinq premières demandes trouvées dans votre ensemble de données. Le rapport complet de la tâche d'évaluation est disponible dans le compartiment Amazon S3 que vous spécifiez lors de la création de la tâche d'évaluation du modèle.

Lorsque vous créez la tâche d'évaluation du modèle, vous pouvez soit sélectionner un modèle Amazon Bedrock comme modèle générateur, soit évaluer un modèle autre qu'Amazon Bedrock en fournissant vos propres données de réponse d'inférence dans le jeu de données d'invite. Si vous fournissez vos propres données de réponse, Amazon Bedrock ignore l'étape d'appel du modèle et évalue directement les données que vous fournissez.

Pour évaluer les réponses des modèles du générateur, Amazon Bedrock fournit un ensemble de mesures intégrées parmi lesquelles vous pouvez sélectionner. Chaque métrique utilise une invite différente pour le modèle d'évaluateur. Vous pouvez également définir vos propres indicateurs personnalisés pour votre analyse de rentabilisation particulière. Pour en savoir plus, veuillez consulter Utilisez des métriques pour comprendre les performances du modèle.

Modèles pris en charge

Modèles d'évaluateur pris en charge (métriques intégrées)

Pour créer une tâche d'évaluation qui utilise un LLM comme juge avec les métriques intégrées d'Amazon Bedrock, vous devez avoir accès à au moins l'un des modèles de juges de la liste suivante. Pour en savoir plus sur l'accès aux modèles et la disponibilité des régions, consultezAccédez aux modèles de fondations Amazon Bedrock.

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Les profils d'inférence interrégionaux sont pris en charge pour les modèles répertoriés. Pour en savoir plus, veuillez consulter la section Profils d'inférence interrégionaux pris en charge.

Modèles d'évaluateur pris en charge (métriques personnalisées)

Pour créer un travail d'évaluation qui utilise un LLM comme juge avec des indicateurs personnalisés, vous devez accéder à au moins l'un des modèles de juges de la liste suivante.

  • Mistral Large24,02 — mistral.mistral-large-2402-v1:0

  • Mistral Large24,07 — mistral.mistral-large-2407-v1:0

  • AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0

  • AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0

  • AnthropicClaude 3 Haiku3,5 — anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Les profils d'inférence interrégionaux sont pris en charge pour les modèles répertoriés. Pour en savoir plus, veuillez consulter la section Profils d'inférence interrégionaux pris en charge.

Modèles de générateurs pris en charge

Vous pouvez utiliser les types de modèles suivants dans Amazon Bedrock comme modèle de générateur dans une tâche d'évaluation. Vous pouvez également apporter vos propres données de réponse d'inférence provenant de modèles autres qu'Amazon Bedrock.