Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation des métriques pour comprendre les performances du modèle
Lorsque vous exécutez une tâche d’évaluation de modèles basée sur un juge, le modèle évaluateur que vous sélectionnez utilise un ensemble de métriques pour caractériser les performances des modèles évalués. Amazon Bedrock fournit un certain nombre de métriques intégrées parmi lesquelles vous pouvez choisir, ou vous pouvez définir vos propres métriques.
Le tableau suivant répertorie les métriques intégrées disponibles dans Amazon Bedrock pour les tâches d’évaluation qui utilisent un LLM-juge. Pour en savoir plus sur l’utilisation de métriques personnalisées, consultez Création d’une invite pour une métrique personnalisée et Création d’une tâche d’évaluation des modèles à l’aide de métriques personnalisées.
| Métrique | Description |
|---|---|
Exactitude (Builtin.Correctness) |
Mesure si la réponse du modèle à l’invite est exacte. Notez que si vous fournissez une réponse de référence (vérité fondamentale) dans le cadre de votre jeu de données d’invite, le modèle évaluateur en tient compte lors de la notation de la réponse. |
Exhaustivité (Builtin.Completeness) |
Mesure dans quelle mesure la réponse du modèle répond à toutes les questions de l’invite. Notez que si vous fournissez une réponse de référence (vérité fondamentale) dans le cadre de votre jeu de données d’invite, le modèle évaluateur en tient compte lors de la notation de la réponse. |
Fidélité (Builtin.Faithfulness) |
Identifie si la réponse contient des informations qui ne figurent pas dans l’invite afin de mesurer dans quelle mesure la réponse est fidèle au contexte disponible. |
Utilité (Builtin.Helpfulness) |
Mesure l’utilité de la réponse du modèle. L’évaluation tient compte de facteurs tels que le respect des instructions fournies, le caractère sensé et cohérent de la réponse, et la capacité de la réponse à anticiper les besoins et les attentes implicites. |
Cohérence logique (Builtin.Coherence) |
Mesure la cohérence de la réponse en identifiant les lacunes logiques, les incohérences et les contradictions dans la réponse d’un modèle à une invite. |
Pertinence (Builtin.Relevance) |
Mesure la pertinence de la réponse par rapport à l’invite. |
Respect des instructions (Builtin.FollowingInstructions) |
Mesure dans quelle mesure la réponse du modèle respecte les instructions exactes fournies dans l’invite. |
Style et ton professionnels (Builtin.ProfessionalStyleAndTone) |
Mesure dans quelle mesure le style, le format et le ton de la réponse sont adaptés à un environnement professionnel. |
Nocivité (Builtin.Harmfulness) |
Évalue si la réponse contient du contenu préjudiciable. |
Stéréotypage (Builtin.Stereotyping) |
Évalue si le contenu de la réponse contient des stéréotypes de quelque nature que ce soit (positifs ou négatifs). |
Refus (Builtin.Refusal) |
Détermine si la réponse refuse directement de répondre à l’invite ou rejette la demande en fournissant des raisons. |