

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Creación de un trabajo de evaluación de modelos mediante métricas personalizadas
<a name="model-evaluation-built-in-metrics"></a>

Para crear un trabajo con las siguientes instrucciones, necesita un conjunto de datos de peticiones. Si aún no ha creado uno, consulte [Creación de un conjunto de datos de peticiones para un trabajo de evaluación de modelos que utilice un modelo como juez](model-evaluation-prompt-datasets-judge.md).

------
#### [ Console ]

1. Abra la [consola de Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. En el panel izquierdo, en **Inferencia y evaluación**, seleccione **Evaluaciones**.

1. En el panel **Evaluaciones de modelos**, elija **Crear** y seleccione **Automático: el modelo en calidad de juez**.

1. Introduzca los detalles de la evaluación del modelo de la siguiente manera:

   1. En el panel **Detalles de la evaluación del modelo**, en **Nombre de la evaluación**, introduzca un nombre para su trabajo de evaluación. El nombre que elija debe ser único dentro de su Región de AWS.

   1. Si lo desea, en **Descripción: *opcional***, introduzca una descripción para su trabajo de evaluación.

   1. En **Modelo evaluador**, elija **Seleccionar modelo** y seleccione el modelo juez para el que desee realizar la evaluación.

1. Introduzca el origen de inferencia para su trabajo de evaluación. Con las evaluaciones de modelos de Amazon Bedrock, puede evaluar el rendimiento de los modelos de Amazon Bedrock o de otros modelos proporcionando sus propios datos de respuesta de inferencia en el [conjunto de datos de peticiones](model-evaluation-prompt-datasets-judge.md). Para seleccionar un modelo de Amazon Bedrock, haga lo siguiente:

   1. En el panel **Origen de la inferencia**, en **Seleccionar origen**, seleccione **Modelos de Bedrock**.

   1. En **Seleccionar modelo**, elija **Seleccionar modelo**.

   1. En la ventana emergente, seleccione el modelo que desea evaluar y elija **Aplicar**.

   1. (Opcional) Para cambiar los parámetros de inferencia del modelo, en **Configuración de inferencia**, seleccione **actualizar**.

1. Para traer sus propios datos de respuesta de inferencia, haga lo siguiente:

   1. En el panel **Origen de la inferencia**, en **Seleccionar origen**, seleccione **Traiga sus propias respuestas de inferencia**.

   1. En **Nombre del origen**, introduzca un nombre para el modelo que utilizó para crear los datos de respuesta. El nombre que introduzca debe coincidir con el parámetro `modelIdentifier` del [conjunto de datos de peticiones](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir).

1. Elija las métricas integradas que desee que utilice el modelo evaluador para puntuar las respuestas del modelo generador seleccionando al menos una métrica en el panel **Métricas**.

1. Defina las ubicaciones de entrada y salida para el conjunto de datos y los resultados de la siguiente manera:

   1. En el panel **Conjuntos de datos**, en **Elegir un conjunto de datos de peticiones**, introduzca el URI de Amazon S3 de su conjunto de datos de peticiones o elija **Examinar S3** y seleccione su archivo. Para ver una definición del formato del conjunto de datos de peticiones requerido para un trabajo de modelo como juez, consulte [Creación de un conjunto de datos de peticiones para un trabajo de evaluación de modelos que utilice un modelo como juez](model-evaluation-prompt-datasets-judge.md).

   1. En **Resultados de la evaluación**, introduzca una ubicación de Amazon S3 para que Amazon Bedrock guarde los resultados o seleccione **Examinar S3** para seleccionar una ubicación.

1. En **Rol de IAM de Amazon Bedrock: permisos**, seleccione **Crear y usar un rol de servicio nuevo** para que Amazon Bedrock cree un nuevo rol de IAM para el trabajo de evaluación o seleccione **Usar un rol de servicio existente** para elegir un rol de IAM existente. Para obtener una lista de los permisos necesarios para crear y ejecutar un trabajo de evaluación, consulte [Requisitos previos](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Opcional) Para usar su propia clave de KMS para cifrar los datos de evaluación, en **KMSkey: *opcional***, active **Personalizar la configuración de cifrado (avanzado)** y seleccione su clave de AWS KMS. De forma predeterminada, Amazon Bedrock cifra los datos de su trabajo de evaluación con una clave de KMS propiedad de AWS.

1. Elija **Create** para terminar de crear el trabajo de evaluación.

------
#### [ AWS CLI ]
+   
**Example Comando de la AWS CLI y archivo JSON para crear un trabajo de evaluación para un modelo de Amazon Bedrock**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example Comando de la AWS CLI y archivo JSON para crear un trabajo de evaluación en el que proporcione sus propios datos de respuesta de inferencia**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "{{s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl}}"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------