Évaluez les performances des ressources Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluez les performances des ressources Amazon Bedrock

Utilisez les évaluations d'Amazon Bedrock pour évaluer les performances et l'efficacité des modèles et des bases de connaissances Amazon Bedrock, ainsi que des modèles et des sources de génération augmentée de récupération (RAG) en dehors d'Amazon Bedrock. Amazon Bedrock peut calculer des indicateurs de performance tels que la robustesse sémantique d'un modèle et l'exactitude d'une base de connaissances pour récupérer des informations et générer des réponses. Pour les évaluations de modèles, vous pouvez également faire appel à une équipe de travailleurs humains pour évaluer et apporter leur contribution à l'évaluation.

Les évaluations automatiques, y compris les évaluations qui s'appuient sur de grands modèles linguistiques (LLMs), produisent des scores calculés et des mesures qui vous aident à évaluer l'efficacité d'un modèle et d'une base de connaissances. Les évaluations basées sur l'humain font appel à une équipe de personnes qui fournissent leurs notes et leurs préférences par rapport à certains indicateurs.

Présentation : tâches d’évaluation de modèle automatique

Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données de requêtes personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.

Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains

Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.

Vue d'ensemble : Emplois d'évaluation de modèles utilisant un modèle de juge

Les tâches d'évaluation de modèles qui utilisent un modèle de juge vous permettent d'évaluer rapidement les réponses d'un modèle en utilisant un deuxième LLM. Le deuxième LLM note la réponse et fournit une explication pour chaque réponse.

Vue d'ensemble des évaluations RAG qui utilisent de grands modèles linguistiques () LLMs

Les évaluations basées sur le LLM calculent les indicateurs de performance pour la base de connaissances. Les statistiques indiquent si une source RAG ou une base de connaissances Amazon Bedrock est capable de récupérer des informations très pertinentes et de générer des réponses utiles et appropriées. Vous fournissez un ensemble de données qui contient les invites ou les requêtes des utilisateurs permettant d'évaluer la manière dont une base de connaissances extrait des informations et génère des réponses pour ces requêtes. L'ensemble de données doit également inclure la « vérité fondamentale » ou les textes et réponses attendus aux requêtes afin que l'évaluation puisse vérifier si votre base de connaissances est conforme aux attentes.

Consultez la rubrique suivante pour en savoir plus sur la création de votre première tâche d'évaluation de modèles.

Les tâches d'évaluation de modèles prennent en charge l'utilisation des types de modèles Amazon Bedrock suivants :

  • Modèles de fondation

  • Modèles Amazon Bedrock Marketplace

  • Modèles de fondation personnalisés

  • Modèles de fondation importés

  • Routeurs rapides

  • Modèles pour lesquels vous avez acheté Provisioned Throughput