

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Erstellen eines Auftrags zur Modellbewertung mithilfe integrierter Metriken
<a name="model-evaluation-built-in-metrics"></a>

Für eine Auftragserstellung mit den folgenden Anweisungen benötigen Sie einen Prompt-Datensatz. Wenn Sie noch keinen erstellt haben, finden Sie weitere Informationen unter [Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet](model-evaluation-prompt-datasets-judge.md).

------
#### [ Console ]

1. Öffnen Sie die [Amazon-Bedrock-Konsole](https://console.aws.amazon.com/bedrock/home).

1. Wählen Sie im linken Bereich unter **Inferenz und Bewertung** die Option **Bewertungen** aus.

1. Wählen Sie im Bereich **Modellbewertungen** die Option **Erstellen** und dann **Automatisch: Modell als Richter** aus.

1. Gehen Sie wie folgt vor, um Ihre Modellbewertungsdetails einzugeben:

   1. Geben Sie im Bereich **Modellbewertungsdetails** unter **Bewertungsname** einen Namen für Ihren Bewertungsauftrag ein. Der ausgewählte Name muss innerhalb Ihrer AWS-Region eindeutig sein.

   1. Geben Sie optional unter **Beschreibung – *optional*** eine Beschreibung für Ihren Bewertungsauftrag ein.

   1. Klicken Sie unter **Evaluatormodell** auf **Modell auswählen** und wählen Sie das Judge-Modell aus, für das Sie Ihre Bewertung durchführen möchten.

1. Geben Sie die Inferenzquelle für Ihren Bewertungsauftrag ein. Mit den Amazon-Bedrock-Modellbewertungen können Sie entweder die Leistung der Amazon-Bedrock-Modelle bewerten oder die anderer Modelle, indem Sie eigene Inferenzantwortdaten im [Prompt-Datensatz](model-evaluation-prompt-datasets-judge.md) bereitstellen. Gehen Sie wie folgt vor, um ein Amazon-Bedrock-Modell auszuwählen:

   1. Wählen Sie im Bereich **Inferenzquelle** unter **Quelle auswählen** die Option **Bedrock-Modelle** aus.

   1. Klicken Sie unter **Modell auswählen** auf die Option **Modell auswählen**.

   1. Wählen Sie im Popup-Fenster das Modell aus, das Sie bewerten möchten, und klicken Sie auf **Anwenden**.

   1. (Optional) Wenn Sie die Inferenzparameter des Modells ändern möchten, wählen Sie unter **Inferenzkonfiguration** die Option **Aktualisieren** aus.

1. Gehen Sie wie folgt vor, um eigene Inferenzantwortdaten bereitzustellen:

   1. Wählen Sie im Bereich **Inferenzquelle** unter **Quelle auswählen** die Option **Eigene Inferenzantworten einbringen** aus.

   1. Geben Sie unter **Quellenname** einen Namen für das Modell ein, mit dem Sie die Antwortdaten erstellt haben. Der eingegebene Name muss mit dem `modelIdentifier`-Parameter in Ihrem [Prompt-Datensatz](model-evaluation-prompt-datasets-judge.md#model-evaluation-prompt-datasets-judge-byoir) übereinstimmen.

1. Wählen Sie die integrierten Metriken aus, die das Evaluatormodell zur Bewertung der Antworten des Generatormodells verwenden soll, indem Sie im Bereich **Metriken** mindestens eine Metrik auswählen.

1. Definieren Sie Ihre Eingabe- und Ausgabeorte für Ihren Datensatz und Ihre Ergebnisse, indem Sie wie folgt vorgehen:

   1. Geben Sie im Bereich **Datensätze** unter **Prompt-Datensatz auswählen** den Amazon-S3-URI für Ihren Prompt-Datensatz ein oder wählen Sie **S3 durchsuchen** aus, um Ihre Datei auszuwählen. Eine Definition des erforderlichen Prompt-Datensatzformats für einen Modell-als-Richter-Bewertungsauftrag finden Sie unter [Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet](model-evaluation-prompt-datasets-judge.md).

   1. Geben Sie unter **Bewertungsergebnisse** einen Amazon-S3-Speicherort ein, an dem Amazon Bedrock Ihre Ergebnisse ablegen soll, oder wählen Sie **S3 durchsuchen** aus, um einen Speicherort auszuwählen.

1. Wählen Sie unter **Amazon-Bedrock-IAM-Rolle – Berechtigungen** die Option **Neue Servicerolle erstellen und verwenden** aus, damit Amazon Bedrock eine neue IAM-Rolle für den Bewertungsauftrag erstellt, oder wählen Sie **Eine vorhandene Servicerolle verwenden** aus, um eine vorhandene IAM-Rolle auszuwählen. Eine Liste der erforderlichen Berechtigungen zum Erstellen und Ausführen eines Bewertungsauftrags finden Sie unter [Voraussetzungen](model-evaluation-judge-create.md#model-evaluation-judge-create-prereqs).

1. (Optional) Wenn Sie einen eigenen KMS-Schlüssel zum Verschlüsseln Ihrer Bewertungsdaten verwenden möchten, aktivieren Sie unter **KMSkey – *Optional*** die Option **Verschlüsselungseinstellungen anpassen (erweitert)** und wählen dann Ihren AWS KMS-Schlüssel aus. Amazon Bedrock verschlüsselt die Daten Ihres Bewertungsauftrags standardmäßig mit einem AWS-eigenen KMS-Schlüssel.

1. Klicken Sie auf **Erstellen**, um die Erstellung Ihres Bewertungsauftrags abzuschließen.

------
#### [ AWS CLI ]
+   
**Example AWS CLI-Befehl und JSON-Datei zum Erstellen eines Bewertungsauftrags für ein Amazon-Bedrock-Modell**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "applicationType": "ModelEvaluation",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "bedrockModel": {
                      "modelIdentifier": "anthropic.claude-v2",
                      "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
      }
  }
  ```  
**Example AWS CLI-Befehl und JSON-Datei zum Erstellen eines Bewertungsauftrags, bei dem Sie eigene Inferenzantwortdaten angeben**  

  ```
  aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json
  ```

  ```
  {
      "jobName": "model-eval-llmaj",
      "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
      "evaluationConfig": {
          "automated": {
              "datasetMetricConfigs": [
                  {
                      "taskType": "General",
                      "dataset": {
                          "name": "text_dataset",
                          "datasetLocation": {
                              "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                          }
                      },
                      "metricNames": [
                          "Builtin.Correctness",
                          "Builtin.Completeness"
                      ]
                  }
              ],
              "evaluatorModelConfig": {
                  "bedrockEvaluatorModels": [
                      {
                          "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                      }
                  ]
              }
          }
      },
      "inferenceConfig": {
          "models": [
              {
                  "precomputedInferenceSource": {
                      "inferenceSourceIdentifier": "my_model"
                  }
              }
          ]
      },
      "outputDataConfig": {
          "s3Uri": "s3://amzn-s3-demo-bucket/output/"
      }
  }
  ```

------