Évaluation des performances des sources RAG à l’aide des évaluations Amazon Bedrock

Vous pouvez utiliser des métriques calculées pour évaluer l’efficacité avec laquelle un système de génération à enrichissement contextuel (RAG) extrait les informations pertinentes de vos sources de données, ainsi que l’efficacité des réponses générées pour répondre aux questions. Les résultats d’une évaluation RAG vous permettent de comparer différentes bases de connaissances Amazon Bedrock et d’autres sources RAG, puis de choisir la base de connaissances ou le meilleur système RAG pour votre application.

Vous pouvez configurer deux types différents de tâches d’évaluation RAG.

Extraction uniquement : dans une tâche d’évaluation RAG à extraction uniquement, le rapport est basé sur les données extraites de votre source RAG. Vous pouvez soit évaluer une base de connaissances Amazon Bedrock, soit apporter vos propres données de réponse d’inférence à partir d’une source RAG externe.
Extraction et génération : dans une tâche d’évaluation RAG d’extraction et de génération, le rapport est basé sur les données extraites de votre base de connaissances et sur les résumés générés par le modèle générateur de réponses. Vous pouvez soit utiliser une base de connaissances Amazon Bedrock et un modèle générateur de réponses, soit apporter vos propres données de réponse d’inférence à partir d’une source RAG externe.

Modèles pris en charge

Pour créer une tâche d’évaluation RAG, vous devez accéder à au moins un des modèles évaluateur figurant dans les listes suivantes. Pour créer une tâche d’extraction et de génération utilisant un modèle Amazon Bedrock pour générer les réponses, vous devez également accéder à au moins l’un des modèles générateurs de réponses répertoriés.

Pour en savoir plus sur l’accès aux modèles et la disponibilité des régions, consultez Demander l'accès aux modèles.

Modèles évaluateurs pris en charge (métriques intégrées)

Amazon Nova Pro – amazon.nova-pro-v1:0
Amazon Nova 2 Lite — amazon.nova-2-lite-v1:0
Amazon Nova Micro — amazon.nova-micro-v1:0
Amazon Nova Premier — amazon.nova-premier-v1:0
Anthropic Claude 3.5 Sonnet v1 : anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 : anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Haïku anthropique de Claude 4.5 — anthropic.claude-haiku-4-5-20251001-v1:0
Claude Anthropic Opus 4.5 — anthropic.claude-opus-4-5-20251101-v1:0
Claude Sonnet anthropique 4.0 — anthropic.claude-sonnet-4-20250514-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.

Modèles évaluateurs pris en charge (métriques personnalisées)

Mistral Large 24.02 : mistral.mistral-large-2402-v1:0
Mistral Large 24.07 : mistral.mistral-large-2407-v1:0
Anthropic Claude 3.5 Sonnet v1 : anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 : anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku 3 : anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3 Haiku 3.5 : anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0
Amazon Nova 2 Lite — amazon.nova-2-lite-v1:0
Amazon Nova Micro — amazon.nova-micro-v1:0
Amazon Nova Premier — amazon.nova-premier-v1:0
Haïku anthropique de Claude 4.5 — anthropic.claude-haiku-4-5-20251001-v1:0
Claude Anthropic Opus 4.5 — anthropic.claude-opus-4-5-20251101-v1:0
Claude Sonnet anthropique 4.0 — anthropic.claude-sonnet-4-20250514-v1:0

Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.

Modèles générateurs de réponses pris en charge

Vous pouvez utiliser les types de modèles suivants dans Amazon Bedrock comme modèle générateur de réponses dans une tâche d’évaluation. Vous pouvez également apporter vos propres données de réponse d’inférence à partir de modèles autres qu’Amazon Bedrock.

Modèles de fondation : Utiliser des modèles avec Bedrock
Modèles Amazon Bedrock Marketplace : Amazon Bedrock Marketplace
Modèles de fondation personnalisés : Personnalisation de votre modèle pour améliorer ses performances en fonction de votre cas d’utilisation
Modèles de fondation importés : Utilisation de l’importation de modèles personnalisés pour importer un modèle open source personnalisé dans Amazon Bedrock
Routeurs d’invites : Compréhension du routage intelligent des invites dans Amazon Bedrock
Modèles pour lesquels vous avez acheté un débit provisionné : Augmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Arrêt d’une tâche

Jeux de données d’invite