Évaluation des performances des sources RAG à l’aide des évaluations Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation des performances des sources RAG à l’aide des évaluations Amazon Bedrock

Vous pouvez utiliser des métriques calculées pour évaluer l’efficacité avec laquelle un système de génération à enrichissement contextuel (RAG) extrait les informations pertinentes de vos sources de données, ainsi que l’efficacité des réponses générées pour répondre aux questions. Les résultats d’une évaluation RAG vous permettent de comparer différentes bases de connaissances Amazon Bedrock et d’autres sources RAG, puis de choisir la base de connaissances ou le meilleur système RAG pour votre application.

Vous pouvez configurer deux types différents de tâches d’évaluation RAG.

  • Extraction uniquement : dans une tâche d’évaluation RAG à extraction uniquement, le rapport est basé sur les données extraites de votre source RAG. Vous pouvez soit évaluer une base de connaissances Amazon Bedrock, soit apporter vos propres données de réponse d’inférence à partir d’une source RAG externe.

  • Récupérer et générer : dans une tâche d'évaluation retrieve-and-generateRAG, le rapport est basé sur les données extraites de votre base de connaissances et sur les résumés générés par le modèle de générateur de réponses. Vous pouvez soit utiliser une base de connaissances Amazon Bedrock et un modèle générateur de réponses, soit apporter vos propres données de réponse d’inférence à partir d’une source RAG externe.

Modèles pris en charge

Pour créer une tâche d’évaluation RAG, vous devez accéder à au moins un des modèles évaluateur figurant dans les listes suivantes. Pour créer une retrieve-and-generate tâche qui utilise un modèle Amazon Bedrock pour générer les réponses, vous devez également accéder à au moins l'un des modèles de réponse du générateur répertoriés.

Pour en savoir plus sur l’accès aux modèles et la disponibilité des régions, consultez Accès aux modèles de fondation Amazon Bedrock.

Modèles évaluateurs pris en charge (métriques intégrées)

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 : anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 : anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.

Modèles évaluateurs pris en charge (métriques personnalisées)

  • Mistral Large 24.02 : mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 : mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 : anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 : anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 : anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 : anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Les profils d’inférence entre régions sont pris en charge pour les modèles répertoriés. Pour en savoir plus, consultez Profils d'inférence interrégionaux pris en charge.

Modèles générateurs de réponses pris en charge

Vous pouvez utiliser les types de modèles suivants dans Amazon Bedrock comme modèle générateur de réponses dans une tâche d’évaluation. Vous pouvez également apporter vos propres données de réponse d’inférence à partir de modèles autres qu’Amazon Bedrock.