Évaluer les performances des ressources Amazon Bedrock

Utilisez les évaluations d'Amazon Bedrock pour évaluer les performances et l'efficacité des modèles et des bases de connaissances Amazon Bedrock, ainsi que des modèles et des sources de génération augmentée de récupération (RAG) en dehors d'Amazon Bedrock. Amazon Bedrock peut calculer des indicateurs de performance tels que la robustesse sémantique d'un modèle et l'exactitude d'une base de connaissances pour récupérer des informations et générer des réponses. Pour les évaluations de modèles, vous pouvez également faire appel à une équipe de travailleurs humains pour évaluer et apporter leur contribution à l'évaluation.

Les évaluations automatiques, y compris les évaluations qui s'appuient sur de grands modèles linguistiques (LLMs), produisent des scores calculés et des mesures qui vous aident à évaluer l'efficacité d'un modèle et d'une base de connaissances. Les évaluations basées sur l'humain font appel à une équipe de personnes qui fournissent leurs notes et leurs préférences par rapport à certains indicateurs.

Présentation : tâches d’évaluation de modèle automatique

Les tâches d’évaluation de modèle automatique vous permettent d’évaluer rapidement la capacité d’un modèle à effectuer une tâche. Vous pouvez soit fournir votre propre jeu de données d’invite personnalisé que vous avez adapté à un cas d’utilisation spécifique, soit utiliser un ensemble de données intégré disponible.

Présentation : tâches d’évaluation de modèle faisant appel à des travailleurs humains

Les tâches d’évaluation de modèle qui font appel à des travailleurs humains vous permettent d’apporter une contribution humaine au processus d’évaluation de modèle. Il peut s’agir d’employés de votre entreprise ou d’un groupe d’experts dans votre secteur d’activité.

Vue d'ensemble : Emplois d'évaluation de modèles utilisant un modèle de juge

Les tâches d'évaluation de modèles qui utilisent un modèle de juge vous permettent d'évaluer rapidement les réponses d'un modèle en utilisant un deuxième LLM. Le deuxième LLM note la réponse et fournit une explication pour chaque réponse.

Vue d'ensemble des évaluations RAG qui utilisent de grands modèles linguistiques () LLMs

Les évaluations basées sur le LLM calculent les indicateurs de performance pour la base de connaissances. Les statistiques indiquent si une source RAG ou une base de connaissances Amazon Bedrock est capable de récupérer des informations très pertinentes et de générer des réponses utiles et appropriées. Vous fournissez un ensemble de données qui contient les invites ou les requêtes des utilisateurs permettant d'évaluer la manière dont une base de connaissances extrait des informations et génère des réponses pour ces requêtes. L'ensemble de données doit également inclure la « vérité fondamentale » ou les textes et réponses attendus aux requêtes afin que l'évaluation puisse vérifier si votre base de connaissances est conforme aux attentes.

Consultez la rubrique suivante pour en savoir plus sur la création de votre première tâche d'évaluation de modèles.

Les tâches d'évaluation de modèles prennent en charge l'utilisation des types de modèles Amazon Bedrock suivants :

Modèles de fondation
Modèles Amazon Bedrock Marketplace
Modèles de fondation personnalisés
Modèles de fondation importés
Routeurs d’invites
Modèles pour lesquels vous avez acheté Provisioned Throughput

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisez l' ApplyGuardrail API dans votre application

Régions et modèles pris en charge