

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Criar um trabalho de avaliação de modelo usando métricas integradas
<a name="model-evaluation-built-in-metrics"></a>

Para criar um trabalho usando as instruções a seguir, você precisa de um conjunto de dados de prompts. Se você ainda não criou um, consulte [Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador](model-evaluation-prompt-datasets-judge.md).

------
#### [ Console ]

1. Abra o [console do Amazon Bedrock](https://console.aws.amazon.com/bedrock/home).

1. No painel à esquerda, em **Inferência e avaliação**, selecione **Avaliações**.

1. No painel **Avaliações de modelos**, escolha **Criar** e selecione **Automático: Modelo como juiz**.

1. Para inserir os detalhes da avaliação de modelo, faça o seguinte:

   1. No painel **Detalhes da avaliação do modelo**, em **Nome da avaliação**, insira um nome para seu trabalho de avaliação. O nome que você escolher deve ser exclusivo em sua Região da AWS.

   1. Opcionalmente, em **Descrição: *opcional***, insira uma descrição para o trabalho de avaliação.

   1. Em **Modelo de avaliador**, escolha **Selecionar modelo** e selecione o modelo avaliador que você deseja que realize sua avaliação.

1. Insira a fonte de inferência para o trabalho de avaliação. Com as avaliações de modelo do Amazon Bedrock, você pode avaliar o desempenho dos modelos do Amazon Bedrock ou de outros modelos fornecendo seus próprios dados de resposta de inferência no [conjunto de dados de prompts](model-evaluation-prompt-datasets-judge.md). Para selecionar um modelo do Amazon Bedrock, faça o seguinte:

   1. No painel **Fonte de inferência**, em **Selecionar origem**, escolha **Modelos do Bedrock**.

   1. Em **Selecionar modelo**, escolha **Selecionar modelo**.

   1. No pop-up, selecione o modelo que você deseja avaliar e escolha **Aplicar**.

   1. (Opcional) Para alterar os parâmetros de inferência do modelo, em **Configuração de inferência**, escolha **Atualizar**.

1. Para trazer seus próprios dados de resposta de inferência, faça o seguinte:

   1. No painel **Fonte de inferência**, em **Selecionar origem**, escolha **Trazer suas próprias respostas de inferência**.

   1. Em **Nome da origem**, insira um nome para o modelo usado para criar os dados de resposta. O nome inserido deve corresponder ao parâmetro `modelIdentifier` no [conjunto de dados de prompts](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir).

1. Selecione as métricas integradas que você deseja que o modelo use para classificar as respostas do modelo selecionando pelo menos uma métrica no painel **Métricas**.

1. Defina os locais de entrada e saída para o conjunto de dados e os resultados fazendo o seguinte:

   1. No painel **Conjuntos de dados**, em **Escolha um conjunto de dados de prompts**, insira o URI do Amazon S3 para o conjunto de dados de prompts ou escolha **Procurar no S3** e selecione o arquivo. Para ver uma definição do formato de conjunto de dados de prompts necessário para um trabalho de avaliação de modelo como avaliador, consulte [Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador](model-evaluation-prompt-datasets-judge.md).

   1. Em **Resultados da avaliação**, insira um local do Amazon S3 para que o Amazon Bedrock salve seus resultados ou escolha **Procurar no S3** para selecionar um local.

1. Em **Perfil do IAM do Amazon Bedrock: Permissões**, selecione **Criar e usar um novo perfil de serviço** para que o Amazon Bedrock crie um perfil do IAM para o trabalho de avaliação ou selecione **Usar um perfil de serviço existente** para escolher um perfil do IAM existente. Para ver uma lista das permissões necessárias para criar e executar um trabalho de avaliação, consulte [Pré-requisitos](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Opcional) Para usar sua própria chave do KMS para criptografar dados de avaliação, em **KMSkey: *opcional***, marque **Personalizar configurações de criptografia (avançadas)** e selecione sua chave do AWS KMS. Por padrão, o Amazon Bedrock criptografa os dados do trabalho de avaliação com uma chave do Amazon Bedrock com uma chave do Amazon AWS Bedrock.

1. Selecione **Criar** para concluir a criação do trabalho de avaliação.

------
#### [ AWS CLI ]
+   
**Example Comando da AWS CLI e arquivo JSON para criar um trabalho de avaliação de um modelo do Amazon Bedrock**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example Comando da AWS CLI e arquivo JSON para criar um trabalho de avaliação em que você fornece seus próprios dados de resposta de inferência**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://{{my_eval_job.json}}
  ```

  ```
  {
      "jobName": {{"model-eval-llmaj"}},
      "roleArn": "arn:aws:iam::{{111122223333}}:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "{{s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl}}"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------