Évaluation des performances des ressources Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation des performances des ressources Amazon Bedrock

Utilisez les évaluations Amazon Bedrock pour évaluer les performances et l’efficacité des modèles et des bases de connaissances Amazon Bedrock, ainsi que des modèles et des sources de génération à enrichissement contextuel (RAG) en dehors d’Amazon Bedrock. Amazon Bedrock peut calculer des métriques de performances tels que la robustesse sémantique d’un modèle et l’exactitude d’une base de connaissances pour récupérer des informations et générer des réponses. Pour les évaluations de modèles, vous pouvez également faire appel à une équipe de travailleurs humains pour évaluer et apporter leur contribution à l’évaluation.

Les évaluations automatiques, y compris les évaluations qui s’appuient sur les grands modèles de langage (LLM), produisent des scores et des métriques calculés qui vous aident à évaluer l’efficacité d’un modèle et d’une base de connaissances. Les évaluations basées sur l’humain font appel à une équipe de personnes qui fournissent leurs notes et leurs préférences par rapport à certaines métriques.

Présentation : tâches d’évaluation de modèle automatique

Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données d’invite personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.

Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains

Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.

Présentation : tâches d’évaluation de modèles faisant appel à un modèle d’évaluation

Les tâches d’évaluation de modèles qui utilisent un modèle d’évaluation vous permettent d’évaluer rapidement les réponses d’un modèle en utilisant un deuxième LLM. Le deuxième LLM note la réponse et fournit une explication pour chaque réponse.

Vue d’ensemble des évaluations RAG qui utilisent de grands modèles de langage (LLM)

Les évaluations basées sur le LLM calculent les métriques de performances pour la base de connaissances. Les métriques indiquent si une source RAG ou une base de connaissances Amazon Bedrock est capable de récupérer des informations très pertinentes et de générer des réponses utiles et appropriées. Vous fournissez un jeu de données contenant les invites ou les requêtes des utilisateurs permettant d’évaluer la manière dont une base de connaissances extrait des informations et génère des réponses pour ces requêtes. Le jeu de données doit également inclure la « vérité fondamentale » ou les textes et réponses attendus pour les requêtes afin que l’évaluation puisse vérifier si votre base de connaissances correspond à ce qui est attendu.

Consultez la rubrique suivante pour en savoir plus sur la création de votre première tâche d’évaluation de modèles.

Les tâches d’évaluation de modèles prennent en charge l’utilisation des types de modèles Amazon Bedrock suivants :

  • Modèles de fondation

  • Modèles Amazon Bedrock Marketplace

  • Modèles de fondation personnalisés

  • Modèles de fondation importés

  • Routeurs d’invites

  • Modèles pour lesquels vous avez acheté un débit provisionné