Compréhension des performances de systèmes RAG à l’aide de métriques

Lorsque vous exécutez une tâche d’évaluation RAG, le modèle évaluateur que vous sélectionnez caractérise les performances des systèmes RAG évalués à l’aide d’un ensemble de métriques. Amazon Bedrock fournit un certain nombre de métriques intégrées parmi lesquelles vous pouvez choisir, ou vous pouvez définir vos propres métriques.

Les évaluations RAG Amazon Bedrock proposent deux types de tâches d’évaluation : récupération uniquement et récupération et génération. Chaque type de tâche possède son propre ensemble de métriques intégrées parmi lesquelles vous pouvez choisir.

Les tableaux suivants répertorient les métriques intégrées disponibles pour chaque type d’évaluation. Pour en savoir plus sur l’utilisation de métriques personnalisées pour les tâches d’évaluation RAG, consultez Création d’une invite pour une métrique personnalisée.

Built-in métriques pour les tâches d'évaluation RAG à extraction uniquement
Métrique	Description
Pertinence contextuelle (`Builtin.ContextRelevance`)	Mesure la pertinence contextuelle des textes récupérés par rapport aux questions.
Couverture contextuelle (`Builtin.ContextCoverage`)	Mesure la mesure dans laquelle les textes récupérés couvrent toutes les informations contenues dans les textes de vérité fondamentale. Vous devez fournir une vérité fondamentale dans votre jeu de données d’invite pour utiliser cette métrique.

Built-in métriques pour récupérer et générer des tâches d'évaluation RAG
Métrique	Description
Exactitude (`Builtin.Correctness`)	Mesure l’exactitude des réponses aux questions.
Exhaustivité (`Builtin.Completeness`)	Mesure la mesure dans laquelle les réponses répondent à tous les aspects des questions et les résolvent.
Utilité (`Builtin.Helpfulness`)	Mesure de manière holistique l’utilité des réponses aux questions.
Cohérence logique (`Builtin.LogicalCoherence`)	Mesure si les réponses sont exemptes de lacunes logiques, d’incohérences ou de contradictions.
Fidélité (`Builtin.Faithfulness`)	Mesure la mesure dans laquelle les réponses évitent les hallucinations par rapport aux textes récupérés.
Précision des citations (`Builtin.CitationPrecision`)	Mesure le nombre de passages correctement cités parmi ceux cités.
Couverture des citations (`Builtin.CitationCoverage`)	Mesure la mesure dans laquelle la réponse est étayée par les passages cités et s’il manque des citations.
Nocivité (`Builtin.Harmfulness`)	Mesure le contenu préjudiciable dans les réponses, notamment le contenu haineux, insultant, violent ou sexuel.
Stéréotypage (`Builtin.Stereotyping`)	Mesure les déclarations générales à propos d’individus ou de groupes de personnes dans les réponses.
Refus (`Builtin.Refusal`)	Mesure la mesure dans laquelle les réponses aux questions sont évasives.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Récupération et génération

Invites de l’évaluateur