Création d’une tâche d’évaluation RAG de la récupération uniquement

Vous pouvez créer une tâche d’évaluation RAG à l’aide de la AWS Management Console, de l’AWS CLI ou d’un kit AWS SDK pris en charge.

Ce type de tâche nécessite l’accès à un modèle évaluateur. Pour obtenir la liste des modèles évaluateurs pris en charge, consultez Modèles pris en charge.

Pour créer une tâche à l’aide des instructions suivantes, vous avez aussi besoin d’un jeu de données d’invite. Si vous n’en avez pas encore créé, consultez Création d’un jeu de données d’invite pour une évaluation RAG dans Amazon Bedrock.

Console

Ouvrez la console Amazon Bedrock.
Dans le volet de gauche, sous Inférence et évaluation, sélectionnez Évaluations.
Dans le volet Évaluations RAG, cliquez sur Créer.
Saisissez les informations relatives à votre évaluation RAG en procédant comme suit :
1. Dans le volet Détails de l’évaluation, sous Nom de l’évaluation, saisissez le nom de votre tâche d’évaluation. Le nom que vous choisissez doit être unique dans votre Région AWS.
2. Éventuellement, dans Description – Facultatif, entrez la description de votre tâche d’évaluation.
3. Sous Modèle évaluateur, cliquez sur Sélectionner un modèle et sélectionnez le modèle d’évaluation que vous souhaitez pour effectuer votre évaluation.
Entrez la source d’inférence pour votre tâche d’évaluation. Avec les évaluations RAG Amazon Bedrock, vous pouvez soit évaluer les performances d’Amazon Bedrock Knowledge Bases, soit celles d’autres sources RAG en fournissant vos propres données de réponse d’inférence dans le jeu de données d’invite. Pour sélectionner une base de connaissances Amazon Bedrock, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Base de connaissances Bedrock.
2. Sous Choisir une base de connaissances, sélectionnez une base de connaissances à l’aide de la liste déroulante.
Pour apporter vos propres données de réponse d’inférence, procédez comme suit :
1. Dans le volet Source d’inférence, sous Sélectionner la source, sélectionnez Apporter vos propres réponses d’inférence.
2. Dans le champ Nom de la source, saisissez le nom de la source RAG vous ayant permis de créer les données de réponse. Le nom que vous saisissez doit correspondre au paramètre knowledgeBaseIdentifier de votre jeu de données d’invite.
Dans le volet Source d’inférence, sous Type d’évaluation, sélectionnez Récupération uniquement.
Sélectionnez les métriques intégrées que vous souhaitez que le modèle évaluateur utilise en sélectionnant au moins une métrique dans le volet Métriques.
Définissez les emplacements d’entrée et de sortie de votre jeu de données et de vos résultats en procédant comme suit :
1. Dans le volet Jeux de données, sous Choisir un jeu de données d’invite, saisissez l’URI Amazon S3 de votre jeu de données d’invite ou cliquez sur Parcourir S3 et sélectionnez votre fichier. Pour voir une définition du format de jeu de données d’invite requis pour une tâche d’évaluation de la récupération uniquement, consultez Création d’un jeu de données d’invite pour les tâches d’évaluation RAG de la récupération uniquement.
2. Sous Résultats de l’évaluation, saisissez un emplacement Amazon S3 pour Amazon Bedrock afin d’enregistrer vos résultats ou cliquez sur Parcourir S3 pour sélectionner un emplacement.
Sous Rôle IAM Amazon Bedrock : autorisations, sélectionnez Créer et utiliser un nouveau rôle de service pour qu’Amazon Bedrock crée un nouveau rôle IAM pour la tâche d’évaluation, ou sélectionnez Utiliser un rôle de service existant pour sélectionner un rôle IAM existant. Pour obtenir la liste des autorisations requises pour créer et exécuter une tâche d’évaluation, consultez Conditions préalables.
(Facultatif) Pour utiliser votre propre clé KMS afin de chiffrer vos données d’évaluation, sous Clé KMS – Facultatif, cochez Personnaliser les paramètres de chiffrement (avancé) et sélectionnez votre clé AWS KMS. Par défaut, Amazon Bedrock chiffre les données de votre tâche d’évaluation à l’aide d’une clé KMS détenue par AWS.
Cliquez sur Créer pour terminer la création de votre tâche d’évaluation.

AWS CLI

Création d’une tâche d’évaluation de la récupération uniquement pour une base de connaissances Amazon Bedrock

Exécutez la commande AWS CLI suivante à l’aide de l’exemple de fichier JSON.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
   "inferenceConfig": {
        "ragConfigs": [
            {
                "knowledgeBaseConfig": {
                    "retrieveConfig": {
                        "knowledgeBaseId": "your-knowledge-base-id",
                        "knowledgeBaseRetrievalConfiguration": {
                            "vectorSearchConfiguration": {
                                "numberOfResults": 3
                            }
                        }
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Création d’une tâche d’évaluation de la récupération uniquement à l’aide de vos propres données de réponse d’inférence

Exécutez la commande AWS CLI suivante à l’aide de l’exemple de fichier JSON.


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "my_rag_eval",
    "roleArn": "arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974",
    "applicationType": "RagEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage",
                        "Builtin.ContextRelevance"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "ragConfigs": [
            {
                "precomputedRagSourceConfig": {
                    "retrieveSourceConfig": {
                        "ragSourceIdentifier": "my_rag_source"
                    }
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

SDK for Python

L’exemple Python suivant montre comment créer une tâche de récupération uniquement pour une base de connaissances Amazon Bedrock à l’aide du kit AWS SDK pour Python (Boto3). Pour en savoir plus sur la création d’une tâche d’évaluation à l’aide de Boto3, consultez create_evaluation_job dans la documentation de Boto3.


import boto3
client = boto3.client('bedrock')

job_response = client.create_evaluation_job(
    jobName="my_evaluation_job",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-RoleAmazon-Bedrock-IAM-Role",
    applicationType="RagEvaluation",
    inferenceConfig={
        "ragConfigs": [
            {
                "knowledgeBaseConfig": {
                    "retrieveConfig": {
                        "knowledgeBaseId": "your-knowledge-base-id",
                        "knowledgeBaseRetrievalConfiguration": {
                            "vectorSearchConfiguration": {
                                "numberOfResults": 10,
                                "overrideSearchType": "HYBRID"
                            }
                        }
                    }
                }
            }
        ]
    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "Summarization",
                    "dataset": {
                        "name": "RagDataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_data/data_3_rng.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.ContextCoverage"
                    ]
                }
            ],
            "evaluatorModelConfig":
                {
                    "bedrockEvaluatorModels": [{
                        "modelIdentifier": "meta.llama3-1-70b-instruct-v1:0"
                    }]
                }
        }
    }
)

print(job_request)

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d’une tâche

Récupération uniquement avec des métriques personnalisées