Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluez les performances des ressources Amazon Bedrock
Utilisez les évaluations d'Amazon Bedrock pour évaluer les performances et l'efficacité des modèles et des bases de connaissances Amazon Bedrock, ainsi que des modèles et des sources de génération augmentée de récupération (RAG) en dehors d'Amazon Bedrock. Amazon Bedrock peut calculer des indicateurs de performance tels que la robustesse sémantique d'un modèle et l'exactitude d'une base de connaissances pour récupérer des informations et générer des réponses. Pour les évaluations de modèles, vous pouvez également faire appel à une équipe de travailleurs humains pour évaluer et apporter leur contribution à l'évaluation.
Les évaluations automatiques, y compris les évaluations qui s'appuient sur de grands modèles linguistiques (LLMs), produisent des scores calculés et des mesures qui vous aident à évaluer l'efficacité d'un modèle et d'une base de connaissances. Les évaluations basées sur l'humain font appel à une équipe de personnes qui fournissent leurs notes et leurs préférences par rapport à certains indicateurs.
Présentation : tâches d’évaluation de modèle automatique
Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données de requêtes personnalisé que vous avez pensé pour un cas d’utilisation spécifique, soit utiliser un jeu de données intégré mis à disposition.
Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains
Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts, spécialistes de votre secteur d’activité.
Vue d'ensemble : Emplois d'évaluation de modèles utilisant un modèle de juge
Les tâches d'évaluation de modèles qui utilisent un modèle de juge vous permettent d'évaluer rapidement les réponses d'un modèle en utilisant un deuxième LLM. Le deuxième LLM note la réponse et fournit une explication pour chaque réponse.
Vue d'ensemble des évaluations RAG qui utilisent de grands modèles linguistiques () LLMs
Les évaluations basées sur le LLM calculent les indicateurs de performance pour la base de connaissances. Les statistiques indiquent si une source RAG ou une base de connaissances Amazon Bedrock est capable de récupérer des informations très pertinentes et de générer des réponses utiles et appropriées. Vous fournissez un ensemble de données qui contient les invites ou les requêtes des utilisateurs permettant d'évaluer la manière dont une base de connaissances extrait des informations et génère des réponses pour ces requêtes. L'ensemble de données doit également inclure la « vérité fondamentale » ou les textes et réponses attendus aux requêtes afin que l'évaluation puisse vérifier si votre base de connaissances est conforme aux attentes.
Consultez la rubrique suivante pour en savoir plus sur la création de votre première tâche d'évaluation de modèles.
Les tâches d'évaluation de modèles prennent en charge l'utilisation des types de modèles Amazon Bedrock suivants :
-
Modèles de fondation
Modèles Amazon Bedrock Marketplace
-
Modèles de fondation personnalisés
-
Modèles de fondation importés
-
Routeurs rapides
-
Modèles pour lesquels vous avez acheté Provisioned Throughput
Rubriques
Régions et modèles pris en charge pour l'évaluation des modèles
Création d'une tâche d'évaluation automatique de modèles dans Amazon Bedrock
Évaluez les performances du modèle en utilisant un autre LLM comme juge
Évaluez les performances des sources RAG à l'aide des évaluations d'Amazon Bedrock
Autorisations CORS (Cross Origin Resource Sharing) requises sur les compartiments S3
Consultez les rapports de travail et les statistiques d'évaluation des modèles dans Amazon Bedrock
Gestion des données et chiffrement dans le travail d'évaluation d'Amazon Bedrock
CloudTrail événements de gestion dans les emplois d'évaluation de modèles