Passez en revue les métriques des évaluations RAG qui utilisent LLMs (console) - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Passez en revue les métriques des évaluations RAG qui utilisent LLMs (console)

Vous pouvez réviser les métriques présentées dans un rapport pour une tâche d’évaluation RAG à l’aide de la console Amazon Bedrock.

Les évaluations RAG qui utilisent des modèles linguistiques de grande taille (LLMs) calculent des métriques d'évaluation pour évaluer la performance de la base de connaissances Amazon Bedrock ou d'une source RAG externe à récupérer des informations et à générer des réponses.

Dans votre bulletin d’évaluation RAG, vous voyez les métriques et les graphiques de répartition des métriques correspondant à votre type d’évaluation, qu’il s’agisse de récupération uniquement ou de récupération avec génération de réponses. Les différentes métriques sont pertinentes pour les différents types d’évaluations. Les scores calculés pour chaque métrique sont un score moyen pour les textes récupérés ou les réponses générées sur l’ensemble des requêtes utilisateur dans votre jeu de données d’invites. Le score calculé pour chaque métrique est une valeur comprise entre 0 et 1. Plus la valeur est proche de 1, plus la caractéristique de cette métrique s’affiche dans les textes récupérés ou les réponses. Les graphiques de répartition de chaque métrique tracent un histogramme et comptent le nombre de textes récupérés ou de réponses pour les requêtes qui se situent dans chaque plage de scores.

Par exemple, vous avez créé une tâche d’évaluation pour évaluer la récupération avec génération de réponses. Le bulletin de la console indique que le score calculé pour l’exhaustivité des réponses est de 0,82. Le score d’exhaustivité mesure la manière dont les réponses générées répondent à tous les aspects des questions utilisateur. Il est calculé sous la forme d’un score moyen pour les réponses aux questions sur l’ensemble des invites de votre jeu de données. L’histogramme d’exhaustivité montre que la plupart des réponses (barre la plus haute) se situent entre un score d’exhaustivité compris entre 0,7 et 0,8. Cependant, la base de connaissances a également obtenu un score élevé pour le stéréotypage, où des déclarations généralisées sont formulées dans les réponses à 0,94 en moyenne. La base de connaissances peut générer des réponses assez complètes la plupart du temps, mais ces réponses incluent un grand nombre de déclarations généralisées concernant des individus ou des groupes de personnes.

Fiche de rapport pour les évaluations RAG qui utilisent LLMs

Suivez les étapes pour ouvrir le bulletin dans la console Amazon Bedrock pour les tâches d'évaluation RAG qui utilisent. LLMs Consultez les informations ci-dessous pour chaque métrique pertinente pour les évaluations de type « récupération uniquement » et « récupération avec génération de réponses ».

  • Connectez-vous à la console Amazon Bedrock AWS Management Console et ouvrez-la à https://console.aws.amazon.com/bedrock/l'adresse.

  • Choisissez Évaluations dans le volet de navigation, puis Évaluation de la base de connaissances.

  • Sélectionnez le nom de votre tâche d’évaluation de la base de connaissances. Vous êtes alors redirigé vers le bulletin, à savoir la page principale de l’évaluation de la base de connaissances.

    Note

    Pour ouvrir le bulletin, le statut de votre évaluation RAG doit être Prête ou Disponible.

Métriques pertinentes pour les évaluations de type « récupération uniquement »

Certaines métriques sont pertinentes pour évaluer la capacité de votre base de connaissances à récupérer des informations très pertinentes.

Pertinence contextuelle

Cette métrique est pertinente pour la qualité des informations récupérées. Le score est un score moyen pour les fragments de texte récupérés sur l’ensemble des invites de votre jeu de données. La pertinence contextuelle signifie que les fragments de texte récupérés sont contextuellement pertinents pour les questions. Plus le score est élevé, plus les informations sont pertinentes sur le plan contextuel en moyenne. Plus le score est faible, moins les informations sont pertinentes sur le plan contextuel en moyenne.

Couverture du contexte (nécessite une vérité de base)

Cette métrique est pertinente pour la qualité des informations récupérées. Le score est un score moyen pour les fragments de texte récupérés sur l’ensemble des invites de votre jeu de données. La couverture contextuelle signifie que les fragments de texte récupérés couvrent toutes les informations fournies dans les textes de vérité fondamentale. Plus le score est élevé, plus la couverture contextuelle est importante en moyenne. Plus le score est faible, moins la couverture contextuelle est importante en moyenne.

Métriques pertinentes pour les évaluations de type « récupération avec génération de réponses »

Certaines métriques sont pertinentes pour évaluer la capacité de votre base de connaissances à générer des réponses utiles et appropriées en fonction des informations récupérées.

Exactitude

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. L’exactitude signifie répondre avec précision aux questions. Plus le score est élevé, plus les réponses générées sont correctes en moyenne. Plus le score est faible, moins les réponses générées sont correctes en moyenne.

Exhaustivité

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. L’exhaustivité signifie répondre aux questions et en résoudre tous les aspects. Plus le score est élevé, plus les réponses générées sont exhaustives en moyenne. Plus le score est faible, moins les réponses générées sont exhaustives en moyenne.

Utilité

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. L’utilité signifie des réponses globalement utiles aux questions. Plus le score est élevé, plus les réponses générées sont utiles en moyenne. Plus le score est faible, moins les réponses générées sont utiles en moyenne.

Cohérence logique

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. La cohérence logique signifie que les réponses sont exemptes de lacunes logiques, d’incohérences ou de contradictions. Plus le score est élevé, plus les réponses générées sont cohérentes en moyenne. Plus le score est faible, moins les réponses générées sont cohérentes en moyenne.

Fidélité

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. La fidélité signifie éviter les hallucinations en ce qui concerne les fragments de texte récupérés. Plus le score est élevé, plus les réponses générées sont fidèles en moyenne. Plus le score est faible, moins les réponses générées sont fidèles en moyenne.

Précision des citations

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. La précision des citations est une mesure du nombre de passages cités correctement. Plus le score est élevé, plus il y a de citations correctes dans les réponses en moyenne. Plus le score est faible, moins il y a de citations correctes en moyenne.

Si vous choisissez d’utiliser la précision des citations, vous devez également utiliser la couverture des citations, et inversement. La couverture des citations correspond approximativement au rappel des citations. L’utilisation conjointe des deux donne une vue complète de la qualité des citations.

Couverture des citations

Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. La couverture des citations correspond approximativement au rappel des citations et permet d’évaluer la mesure dans laquelle la réponse est étayée par les passages cités. Plus le score est élevé, plus les réponses sont étayées par des citations en moyenne. Plus le score est faible, moins les réponses sont étayées par des citations en moyenne.

Si vous choisissez d’utiliser la couverture des citations, vous devez également utiliser la précision des citations, et inversement. L’utilisation conjointe des deux donne une vue complète de la qualité des citations.

Nocivité

Cette métrique est pertinente pour déterminer la caractère approprié des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. La nocivité signifie faire des déclarations haineuses, insultantes ou violentes. Plus le score est élevé, plus les réponses générées sont nocives en moyenne. Plus le score est faible, moins les réponses générées sont nocives en moyenne.

Stéréotypage

Cette métrique est pertinente pour déterminer la caractère approprié des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. Le stéréotypage consiste à faire des déclarations générales à propos d’individus ou de groupes de personnes. Plus le score est élevé, plus il y a de stéréotypes dans les réponses générées en moyenne. Plus le score est faible, moins il y a de stéréotypes dans les réponses générées en moyenne. Notez qu’une forte présence de stéréotypes à la fois flatteurs et désobligeants se traduit par un score élevé.

Refus

Cette métrique est pertinente pour déterminer la caractère approprié des réponses générées. Le score est un score moyen pour les réponses sur l’ensemble des invites de votre jeu de données. Un refus implique des réponses évasives aux questions. Plus le score est élevé, plus les réponses générées sont évasives en moyenne. Plus le score est faible, moins les réponses générées sont évasives en moyenne.