Création d’une tâche d’évaluation RAG de la récupération uniquement à l’aide de métriques personnalisées

Pour créer une tâche d’évaluation utilisant une métrique personnalisée, vous devez fournir les éléments suivants :

Une invite contenant les instructions détaillées à utiliser par le modèle d’évaluation
Le modèle évaluateur que vous souhaitez utiliser pour vos métriques personnalisées

Vous pouvez également spécifier une échelle de notation (schéma de sortie) que le modèle d’évaluation peut utiliser pour noter les réponses du modèle générateur.

Vous pouvez créer une tâche d'évaluation avec des métriques personnalisées à l'aide du AWS Management Console, AWS Command Line Interface (AWS CLI) ou de l'API Amazon Bedrock. Suivez les instructions ci-après pour créer votre tâche d’évaluation. Pour obtenir des instructions et des conseils sur la création de l’invite pour votre métrique et sur la définition de l’échelle de notation que vous spécifiez lors de la création, consultez Création d’une invite pour une métrique personnalisée.

Lorsque vous créez une tâche d’évaluation avec une ou plusieurs métriques personnalisées, Amazon Bedrock enregistre vos définitions de métriques sous forme de fichiers JSON dans le compartiment S3 de sortie que vous spécifiez. Vous pouvez accéder à ces fichiers via s3://S3-output-bucket-name/job-name/job-uuid/custom_metrics. Pour connaître le format des définitions JSON des métriques personnalisées, consultez Création d’un fichier JSON pour créer une métrique personnalisée.

Pour créer une tâche à l’aide des instructions suivantes, vous avez aussi besoin d’un jeu de données d’invite. Si vous n’en avez pas encore créé, consultez Création d’un jeu de données d’invite pour une évaluation RAG dans Amazon Bedrock.

Pour obtenir la liste des modèles évaluateurs pris en charge, consultez Modèles pris en charge. Pour en savoir plus sur l’accès aux modèles, consultez Demander l'accès aux modèles.

Console

Ouvrez la console Amazon Bedrock.
Dans le volet de gauche, sous Inférence et évaluation, sélectionnez Évaluations.
Dans le volet Évaluations RAG, cliquez sur Créer.
Saisissez les informations relatives à votre évaluation RAG en procédant comme suit :
1. Dans le volet Détails de l’évaluation, sous Nom de l’évaluation, saisissez le nom de votre tâche d’évaluation. Le nom que vous choisissez doit être unique au sein de votre Région AWS.
2. Éventuellement, dans Description – Facultatif, entrez la description de votre tâche d’évaluation.
3. Sous Modèle évaluateur, cliquez sur Sélectionner un modèle et sélectionnez le modèle d’évaluation que vous souhaitez pour effectuer votre évaluation.
Entrez la source d’inférence pour votre tâche d’évaluation. Avec les évaluations RAG Amazon Bedrock, vous pouvez soit évaluer les performances d’Amazon Bedrock Knowledge Bases, soit celles d’autres sources RAG en fournissant vos propres données de réponse d’inférence dans le jeu de données d’invite. Pour sélectionner une base de connaissances Amazon Bedrock, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Base de connaissances Bedrock.
2. Sous Choisir une base de connaissances, sélectionnez une base de connaissances à l’aide de la liste déroulante.
Pour apporter vos propres données de réponse d’inférence, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Apporter vos propres réponses d’inférence.
2. Dans le champ Nom de la source, saisissez le nom de la source RAG vous ayant permis de créer les données de réponse. Le nom que vous saisissez doit correspondre au paramètre knowledgeBaseIdentifier de votre jeu de données d’invite.
Dans le volet Source d’inférence, sous Type d’évaluation, sélectionnez Récupération uniquement.
Choisissez les métriques intégrées que vous souhaitez que le modèle évaluateur utilise en les sélectionnant dans le volet Métriques.
Pour ajouter une autre métrique personnalisée, commencez par sélectionner le modèle évaluateur que vous souhaitez utiliser pour évaluer vos métriques. Dans le volet Métriques personnalisées, procédez comme suit :
1. Choisissez Sélectionner le modèle.
2. Dans la fenêtre contextuelle, sélectionnez le modèle que vous souhaitez utiliser.
3. Cliquez sur Appliquer.
Sous Nom de la métrique, saisissez le nom de votre métrique.
Vous pouvez configurer votre métrique de trois façons : en fournissant un fichier JSON qui spécifie la métrique, en modifiant une invite de métrique intégrée existante à partir d’un modèle ou en saisissant directement dans la console une invite à utiliser par le modèle évaluateur.

Pour créer une métrique à partir d’un fichier JSON, procédez comme suit :
1. Sous Choisir un type de métrique, sélectionnez Importer un fichier JSON.
2. Sous Importer un fichier JSON, choisissez Choisir un fichier.
3. À l’aide du sélecteur de fichiers, sélectionnez le fichier JSON avec votre définition de métrique personnalisée et choisissez Ouvrir. Pour en savoir plus sur le schéma permettant de spécifier une métrique personnalisée à l’aide d’un fichier JSON et découvrir des exemples de fichiers, consultez Création d’un fichier JSON pour créer une métrique personnalisée.
4. (Facultatif) Pour créer une autre métrique, choisissez Ajouter des métriques personnalisées. Vous pouvez créer jusqu’à 10 métriques personnalisées pour une tâche d’évaluation.
  
  Après avoir créé vos métriques personnalisées, passez à l’étape 14 pour configurer vos jeux de données pour la tâche d’évaluation.
Pour créer une métrique personnalisée à partir d’un modèle intégré, procédez comme suit :
1. Sous Choisir un type de métrique, sélectionnez Utiliser un modèle.
2. Sous Sélectionner un modèle, utilisez la liste déroulante pour choisir une invite de métrique intégrée à utiliser comme point de départ pour votre métrique personnalisée.
3. Sous Instructions, modifiez l’invite que vous avez sélectionnée pour l’adapter à votre propre cas d’utilisation. Pour connaître les bonnes pratiques et obtenir la liste des éléments requis lors de la création d’une invite de métrique personnalisée, consultez Création d’une invite pour une métrique personnalisée.
4. Si vous souhaitez que votre tâche d’évaluation produise des sorties structurées avec des scores classés, laissez la case Schéma de sortie activé (recommandé) cochée. La configuration de votre métrique ne doit pas obligatoirement inclure un schéma de sortie, mais nous vous recommandons d’en définir un. Si vous n’utilisez pas de schéma, les résultats que vous visualisez incluent uniquement des explications, sans scores ni visualisation de données.
5. Sous Type d’échelle, sélectionnez Numérique ou Chaîne en fonction de votre cas d’utilisation, puis saisissez vos définitions d’échelle et de description dans les zones de texte. Pour obtenir des conseils et des bonnes pratiques sur la définition des échelles de sortie, consultez Spécification d’un schéma de sortie (échelle de notation).
6. (Facultatif) Pour créer une autre métrique, choisissez Ajouter des métriques personnalisées. Vous pouvez créer jusqu’à 10 métriques personnalisées pour une tâche d’évaluation.
  
  Après avoir créé vos métriques personnalisées, passez à l’étape 14 pour configurer vos jeux de données pour la tâche d’évaluation.
Pour créer une métrique personnalisée à partir de zéro dans la console, procédez comme suit :
1. Sous Choisir un type de métrique, sélectionnez Personnalisé.
2. Sous Instructions, saisissez l’invite pour votre métrique personnalisée directement dans la zone de texte. Pour connaître les bonnes pratiques et obtenir la liste des éléments requis lors de la création d’une invite de métrique personnalisée, consultez Construction d’invite et bonnes pratiques.
3. Si vous souhaitez que votre tâche d’évaluation produise des sorties structurées avec des scores classés, laissez la case Schéma de sortie activé (recommandé) cochée. La configuration de votre métrique ne doit pas obligatoirement inclure un schéma de sortie, mais nous vous recommandons d’en définir un. Si vous n’utilisez pas de schéma, les résultats que vous visualisez incluent uniquement des explications, sans scores ni visualisation de données.
4. Sous Type d’échelle, sélectionnez Numérique ou Chaîne en fonction de votre cas d’utilisation, puis saisissez vos définitions d’échelle et de description dans les zones de texte. Pour obtenir des conseils et des bonnes pratiques sur la définition des échelles de sortie, consultez Spécification d’un schéma de sortie (échelle de notation).
5. (Facultatif) Pour en créer une autre, choisissez Ajouter des métriques personnalisées. Vous pouvez créer jusqu’à 10 métriques personnalisées pour une tâche d’évaluation.
  
  Après avoir créé vos métriques personnalisées, passez à l’étape suivante afin de configurer vos jeux de données pour la tâche d’évaluation.
Définissez les emplacements d’entrée et de sortie de votre jeu de données et de vos résultats en procédant comme suit :
1. Dans le volet Jeux de données, sous Choisir un jeu de données d’invite, saisissez l’URI Amazon S3 de votre jeu de données d’invite ou cliquez sur Parcourir S3 et sélectionnez votre fichier. Pour voir une définition du format de jeu de données d’invite requis pour une tâche d’évaluation de la récupération uniquement, consultez Création d’un jeu de données d’invite pour les tâches d’évaluation RAG de la récupération uniquement.
2. Sous Résultats de l’évaluation, saisissez un emplacement Amazon S3 pour Amazon Bedrock afin d’enregistrer vos résultats ou cliquez sur Parcourir S3 pour sélectionner un emplacement.
Sous Rôle IAM Amazon Bedrock : autorisations, sélectionnez Créer et utiliser un nouveau rôle de service pour qu’Amazon Bedrock crée un nouveau rôle IAM pour la tâche d’évaluation, ou sélectionnez Utiliser un rôle de service existant pour sélectionner un rôle IAM existant. Pour obtenir la liste des autorisations requises pour créer et exécuter une tâche d’évaluation, consultez Conditions préalables.
(Facultatif) pour utiliser votre propre clé KMS pour chiffrer vos données d'évaluation, sous KMSKey - Facultatif, cochez Personnaliser les paramètres de chiffrement (avancés) et sélectionnez votre clé. AWS KMS Par défaut, Amazon Bedrock chiffre les données de votre tâche d’évaluation à l’aide d’une clé KMS détenue par AWS.
Cliquez sur Créer pour terminer la création de votre tâche d’évaluation.

AWS CLI

Création d’une tâche d’évaluation de la récupération uniquement pour une base de connaissances Amazon Bedrock

Exécutez la AWS CLI commande suivante à l'aide de l'exemple de fichier JSON.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-Custom-Metric",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance",
                        "CustomMetric-Correctness-FloatRatingScale"
                    ]
                }
            ],
            "customMetricConfig": {
                "customMetrics": [
                    {
                        "customMetricDefinition": {
                            "name": "CustomMetric-Correctness-FloatRatingScale",
                            "instructions": "<Your complete custom metric prompt including at least one {{input variable}}>",
                            "ratingScale": [
                                {
                                    "definition": "Not at all",
                                    "value": {
                                        "floatValue": 0
                                    }
                                },
                                {
                                    "definition": "Somewhat",
                                    "value": {
                                        "floatValue": 1
                                    }
                                },
                                {
                                    "definition": "Mostly",
                                    "value": {
                                        "floatValue": 2
                                    }
                                }
                            ]
                        }
                    }
                ],
                "evaluatorModelConfig": {
                    "bedrockEvaluatorModels": [
                        {
                            "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                        }
                    ]
                }
            },
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                    }
                ]
            }
        }
    },
   "inferenceConfig": {
        "ragConfigs": [
            {
                "knowledgeBaseConfig": {
                    "retrieveConfig": {
                        "knowledgeBaseId": "your-knowledge-base-id",
                        "knowledgeBaseRetrievalConfiguration": {
                            "vectorSearchConfiguration": {
                                "numberOfResults": 3
                            }
                        }
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Note

L’exemple de fichier JSON contient deux objets evaluatorModelConfig. Celui situé à l’intérieur de l’objet customMetricConfig indique le modèle évaluateur à utiliser avec les métriques personnalisées. L’autre instance indique le modèle à utiliser pour les métriques intégrées. Veillez à spécifier ces deux objets correctement.

Création d’une tâche d’évaluation de la récupération uniquement à l’aide de vos propres données de réponse d’inférence

Exécutez la AWS CLI commande suivante à l'aide de l'exemple de fichier JSON.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-Custom-Metric",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance",
                        "CustomMetric-Correctness-FloatRatingScale"
                    ]
                }
            ],
            "customMetricConfig": {
                "customMetrics": [
                    {
                        "customMetricDefinition": {
                            "name": "CustomMetric-Correctness-FloatRatingScale",
                            "instructions": "<Your complete custom metric prompt including at least one {{input variable}}>",
                            "ratingScale": [
                                {
                                    "definition": "Not at all",
                                    "value": {
                                        "floatValue": 0
                                    }
                                },
                                {
                                    "definition": "Somewhat",
                                    "value": {
                                        "floatValue": 1
                                    }
                                },
                                {
                                    "definition": "Mostly",
                                    "value": {
                                        "floatValue": 2
                                    }
                                }
                            ]
                        }
                    }
                ],
                "evaluatorModelConfig": {
                    "bedrockEvaluatorModels": [
                        {
                            "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                        }
                    ]
                }
            },
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "mistral.mistral-large-2402-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "ragConfigs": [
            {
                "precomputedRagSourceConfig": {
                    "retrieveSourceConfig": {
                        "ragSourceIdentifier": "my_rag_source"
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Note

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Récupération uniquement

Récupération et génération