Creación de un trabajo de evaluación de RAG de solo recuperación
Puede crear un trabajo de evaluación de RAG con la Consola de administración de AWS, la AWS CLI o un SDK de AWS compatible.
Este tipo de trabajo requiere el acceso a un modelo evaluador. Para obtener una lista de los modelos evaluadores admitidos, consulte Modelos compatibles.
Para crear un trabajo con las siguientes instrucciones, también necesita un conjunto de datos de peticiones. Si aún no ha creado uno, consulte Creación de conjuntos de datos de peticiones para una evaluación de RAG en Amazon Bedrock.
- Console
-
-
Abra la consola de Amazon Bedrock
. -
En el panel izquierdo, en Inferencia y evaluación, seleccione Evaluaciones.
-
En el panel Evaluaciones de RAG, elija Crear.
-
Introduzca los detalles de la evaluación de RAG de la siguiente manera:
-
En el panel Detalles de la evaluación, en Nombre de la evaluación, introduzca un nombre para su trabajo de evaluación. El nombre que elija debe ser único dentro de su Región de AWS.
-
Si lo desea, en Descripción: opcional, introduzca una descripción para su trabajo de evaluación.
-
En Modelo evaluador, elija Seleccionar modelo y seleccione el modelo evaluador para el que desee realizar la evaluación.
-
-
Introduzca el origen de inferencia para su trabajo de evaluación. Con las evaluaciones de RAG de Amazon Bedrock, puede evaluar el rendimiento de las bases de conocimiento de Amazon Bedrock o de otros orígenes de RAG proporcionando sus propios datos de respuesta de inferencia en el conjunto de datos de peticiones. Para seleccionar una base de conocimiento de Amazon Bedrock, haga lo siguiente:
-
En el panel Origen de la inferencia, en Seleccionar origen, seleccione Base de conocimientos de Bedrock.
-
En Elegir una base de conocimientos, seleccione una base de conocimiento de la lista desplegable.
-
-
Para traer sus propios datos de respuesta de inferencia, haga lo siguiente:
-
En el panel Origen de la inferencia, en Seleccionar origen, seleccione Traiga sus propias respuestas de inferencia.
-
En Nombre del origen, introduzca un nombre para el origen de RAG que utilizó para crear los datos de respuesta. El nombre que introduzca debe coincidir con el parámetro
knowledgeBaseIdentifierdel conjunto de datos de peticiones.
-
-
En el panel Origen de la inferencia, en Tipo de evaluación, seleccione Solo recuperación.
-
Elija las métricas integradas que desee que utilice el modelo evaluador seleccionando al menos una métrica en el panel Métricas.
-
Defina las ubicaciones de entrada y salida para el conjunto de datos y los resultados de la siguiente manera:
-
En el panel Conjuntos de datos, en Elegir un conjunto de datos de peticiones, introduzca el URI de Amazon S3 de su conjunto de datos de peticiones o elija Examinar S3 y seleccione su archivo. Para ver una definición del formato del conjunto de datos de peticiones requerido para un trabajo de evaluación de solo recuperación, consulte Creación de un conjunto de datos de peticiones para trabajos de evaluación de RAG de solo recuperación.
-
En Resultados de la evaluación, introduzca una ubicación de Amazon S3 para que Amazon Bedrock guarde los resultados o seleccione Examinar S3 para seleccionar una ubicación.
-
-
En Rol de IAM de Amazon Bedrock: permisos, seleccione Crear y usar un rol de servicio nuevo para que Amazon Bedrock cree un nuevo rol de IAM para el trabajo de evaluación o seleccione Usar un rol de servicio existente para elegir un rol de IAM existente. Para obtener una lista de los permisos necesarios para crear y ejecutar un trabajo de evaluación, consulte Requisitos previos.
-
(Opcional) Para usar su propia clave de KMS para cifrar los datos de evaluación, en KMSkey: opcional, active Personalizar la configuración de cifrado (avanzado) y seleccione su clave de AWS KMS. De forma predeterminada, Amazon Bedrock cifra los datos de su trabajo de evaluación con una clave de KMS propiedad de AWS.
-
Elija Create para terminar de crear el trabajo de evaluación.
-
- AWS CLI
-
Creación de un trabajo de evaluación de solo recuperación para una base de conocimiento de Amazon Bedrock
-
Ejecute el siguiente comando de la AWS CLI con el archivo JSON de ejemplo.
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"my_rag_eval", "roleArn":"arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974", "applicationType": "RagEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl" } }, "metricNames": [ "Builtin.ContextCoverage", "Builtin.ContextRelevance" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "ragConfigs": [ { "knowledgeBaseConfig": { "retrieveConfig": { "knowledgeBaseId": "your-knowledge-base-id", "knowledgeBaseRetrievalConfiguration": { "vectorSearchConfiguration": { "numberOfResults": 3 } } } } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }
Creación de un trabajo de evaluación de solo recuperación con sus propios datos de respuesta de inferencia
-
Ejecute el siguiente comando de la AWS CLI con el archivo JSON de ejemplo.
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"my_rag_eval", "roleArn":"arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-Role-Amazon-Bedrock-IAM-Role-20250218T063974", "applicationType": "RagEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/retrieval-only/retrieve-eval-byoir.jsonl" } }, "metricNames": [ "Builtin.ContextCoverage", "Builtin.ContextRelevance" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "ragConfigs": [ { "precomputedRagSourceConfig": { "retrieveSourceConfig": { "ragSourceIdentifier":"my_rag_source"} } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }
-
- SDK for Python
-
El siguiente ejemplo de Python muestra cómo crear un trabajo de solo recuperación para una base de conocimiento de Amazon Bedrock mediante el AWS SDK para Python (Boto3). Para obtener más información sobre la creación de un trabajo de evaluación con Boto3, consulte
create_evaluation_joben la documentación de Boto3. import boto3 client = boto3.client('bedrock') job_response = client.create_evaluation_job( jobName="my_evaluation_job", jobDescription="two different task types", roleArn="arn:aws:iam::111122223333:role/service-role/Amazon-Bedrock-IAM-RoleAmazon-Bedrock-IAM-Role", applicationType="RagEvaluation", inferenceConfig={ "ragConfigs": [ { "knowledgeBaseConfig": { "retrieveConfig": { "knowledgeBaseId": "your-knowledge-base-id", "knowledgeBaseRetrievalConfiguration": { "vectorSearchConfiguration": { "numberOfResults": 10, "overrideSearchType": "HYBRID" } } } } } ] }, outputDataConfig={ "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/" }, evaluationConfig={ "automated": { "datasetMetricConfigs": [ { "taskType": "Summarization", "dataset": { "name": "RagDataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input_data/data_3_rng.jsonl" } }, "metricNames": [ "Builtin.ContextCoverage" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [{ "modelIdentifier": "meta.llama3-1-70b-instruct-v1:0" }] } } } ) print(job_request)