Creación de un trabajo de evaluación de modelos mediante métricas personalizadas

Para crear un trabajo con las siguientes instrucciones, necesita un conjunto de datos de peticiones. Si aún no ha creado uno, consulte Creación de un conjunto de datos de peticiones para un trabajo de evaluación de modelos que utilice un modelo como juez.

Console

Abra la consola de Amazon Bedrock.
En el panel izquierdo, en Inferencia y evaluación, seleccione Evaluaciones.
En el panel Evaluaciones de modelos, elija Crear y seleccione Automático: el modelo en calidad de juez.
Introduzca los detalles de la evaluación del modelo de la siguiente manera:
1. En el panel Detalles de la evaluación del modelo, en Nombre de la evaluación, introduzca un nombre para su trabajo de evaluación. El nombre que elija debe ser único dentro de su Región de AWS.
2. Si lo desea, en Descripción: opcional, introduzca una descripción para su trabajo de evaluación.
3. En Modelo evaluador, elija Seleccionar modelo y seleccione el modelo juez para el que desee realizar la evaluación.
Introduzca el origen de inferencia para su trabajo de evaluación. Con las evaluaciones de modelos de Amazon Bedrock, puede evaluar el rendimiento de los modelos de Amazon Bedrock o de otros modelos proporcionando sus propios datos de respuesta de inferencia en el conjunto de datos de peticiones. Para seleccionar un modelo de Amazon Bedrock, haga lo siguiente:
1. En el panel Origen de la inferencia, en Seleccionar origen, seleccione Modelos de Bedrock.
2. En Seleccionar modelo, elija Seleccionar modelo.
3. En la ventana emergente, seleccione el modelo que desea evaluar y elija Aplicar.
4. (Opcional) Para cambiar los parámetros de inferencia del modelo, en Configuración de inferencia, seleccione actualizar.
Para traer sus propios datos de respuesta de inferencia, haga lo siguiente:
1. En el panel Origen de la inferencia, en Seleccionar origen, seleccione Traiga sus propias respuestas de inferencia.
2. En Nombre del origen, introduzca un nombre para el modelo que utilizó para crear los datos de respuesta. El nombre que introduzca debe coincidir con el parámetro modelIdentifier del conjunto de datos de peticiones.
Elija las métricas integradas que desee que utilice el modelo evaluador para puntuar las respuestas del modelo generador seleccionando al menos una métrica en el panel Métricas.
Defina las ubicaciones de entrada y salida para el conjunto de datos y los resultados de la siguiente manera:
1. En el panel Conjuntos de datos, en Elegir un conjunto de datos de peticiones, introduzca el URI de Amazon S3 de su conjunto de datos de peticiones o elija Examinar S3 y seleccione su archivo. Para ver una definición del formato del conjunto de datos de peticiones requerido para un trabajo de modelo como juez, consulte Creación de un conjunto de datos de peticiones para un trabajo de evaluación de modelos que utilice un modelo como juez.
2. En Resultados de la evaluación, introduzca una ubicación de Amazon S3 para que Amazon Bedrock guarde los resultados o seleccione Examinar S3 para seleccionar una ubicación.
En Rol de IAM de Amazon Bedrock: permisos, seleccione Crear y usar un rol de servicio nuevo para que Amazon Bedrock cree un nuevo rol de IAM para el trabajo de evaluación o seleccione Usar un rol de servicio existente para elegir un rol de IAM existente. Para obtener una lista de los permisos necesarios para crear y ejecutar un trabajo de evaluación, consulte Requisitos previos.
(Opcional) Para usar su propia clave de KMS para cifrar los datos de evaluación, en KMSkey: opcional, active Personalizar la configuración de cifrado (avanzado) y seleccione su clave de AWS KMS. De forma predeterminada, Amazon Bedrock cifra los datos de su trabajo de evaluación con una clave de KMS propiedad de AWS.
Elija Create para terminar de crear el trabajo de evaluación.

AWS CLI

ejemplo Comando de la AWS CLI y archivo JSON para crear un trabajo de evaluación para un modelo de Amazon Bedrock


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "applicationType": "ModelEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
    }
}

ejemplo Comando de la AWS CLI y archivo JSON para crear un trabajo de evaluación en el que proporcione sus propios datos de respuesta de inferencia


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de un trabajo

Creación de un trabajo con métricas personalizadas