Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluation des performances du modèle en utilisant un autre LLM-juge
Dans le cadre d’une tâche d’évaluation de modèles utilisant un modèle d’évaluation, Amazon Bedrock utilise un LLM pour évaluer les réponses d’un autre modèle et expliquer comment il a noté chaque paire d’invite et de réponse. Les scores et les explications sont disponibles dans la console Amazon Bedrock via la page Évaluations
Ce type d’évaluation de modèles nécessite deux modèles différents, un modèle générateur et un modèle évaluateur. Vous définissez des invites pour le modèle générateur dans un jeu de données, et le modèle évaluateur note les réponses à ces invites en fonction des mesures que vous sélectionnez.
La fiche récapitulative des mesures de la console affiche un histogramme indiquant le nombre de fois qu’une réponse a reçu un certain score, ainsi que des explications du score pour les cinq premières invites trouvées dans votre jeu de données. Le rapport complet de tâche d’évaluation est disponible dans le compartiment Amazon S3 que vous avez spécifié au moment où vous avez créé la tâche d’évaluation de modèles.
Lorsque vous créez la tâche d’évaluation de modèles, vous pouvez soit sélectionner un modèle Amazon Bedrock comme modèle générateur, soit évaluer un modèle autre qu’Amazon Bedrock en fournissant vos propres données de réponse d’inférence dans le jeu de données d’invite. Si vous fournissez vos propres données de réponse, Amazon Bedrock ignore l’étape d’invocation du modèle et évalue directement les données que vous fournissez.
Pour évaluer les réponses des modèles générateurs, Amazon Bedrock fournit un ensemble de métriques intégrées parmi lesquelles vous pouvez choisir. Chaque métrique utilise une invite différente pour le modèle évaluateur. Vous pouvez également définir vos propres métriques personnalisées pour votre analyse de rentabilisation particulière. Pour en savoir plus, consultez Utilisation des métriques pour comprendre les performances du modèle.
Modèles pris en charge
Modèles évaluateurs pris en charge (métriques intégrées)
Pour créer une tâche d’évaluation qui utilise un LLM-juge avec les métriques intégrées d’Amazon Bedrock, vous devez avoir accès à au moins l’un des modèles d’évaluation de la liste suivante. Pour en savoir plus sur l’accès aux modèles et la disponibilité des régions, consultez Accès aux modèles de fondation Amazon Bedrock.
-
Amazon Nova Pro –
amazon.nova-pro-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Mistral Large –
mistral.mistral-large-2402-v1:0
Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.
Modèles évaluateurs pris en charge (métriques personnalisées)
Pour créer une tâche d’évaluation qui utilise un LLM-juge avec des métriques personnalisées, vous devez avoir accès à au moins l’un des modèles d’évaluation de la liste suivante.
-
Mistral Large 24.02 :
mistral.mistral-large-2402-v1:0 -
Mistral Large 24.07 :
mistral.mistral-large-2407-v1:0 -
Anthropic Claude 3.5 Sonnet v1 :
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 :
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku 3 :
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3 Haiku 3.5 :
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0 -
Amazon Nova Pro –
amazon.nova-pro-v1:0
Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.
Modèles générateurs pris en charge
Vous pouvez utiliser les types de modèles suivants dans Amazon Bedrock comme modèle générateur dans une tâche d’évaluation. Vous pouvez également apporter vos propres données de réponse d’inférence à partir de modèles autres qu’Amazon Bedrock.
-
Modèles de fondation : Informations sur le modèle de fondation Amazon Bedrock
-
Modèles Amazon Bedrock Marketplace : Amazon Bedrock Marketplace
-
Modèles de fondation personnalisés : Personnalisation de votre modèle pour améliorer ses performances en fonction de votre cas d’utilisation
-
Modèles de fondation importés : Utilisation de l’importation de modèles personnalisés pour importer un modèle open source personnalisé dans Amazon Bedrock
-
Routeurs d’invites : Compréhension du routage intelligent des invites dans Amazon Bedrock
-
Modèles pour lesquels vous avez acheté un débit provisionné : Augmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock