Erstellen eines Auftrags zur Modellbewertung mithilfe integrierter Metriken

Für eine Auftragserstellung mit den folgenden Anweisungen benötigen Sie einen Prompt-Datensatz. Wenn Sie noch keinen erstellt haben, finden Sie weitere Informationen unter Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet.

Console

Öffnen Sie die Amazon-Bedrock-Konsole.
Wählen Sie im linken Bereich unter Inferenz und Bewertung die Option Bewertungen aus.
Wählen Sie im Bereich Modellbewertungen die Option Erstellen und dann Automatisch: Modell als Richter aus.
Gehen Sie wie folgt vor, um Ihre Modellbewertungsdetails einzugeben:
1. Geben Sie im Bereich Modellbewertungsdetails unter Bewertungsname einen Namen für Ihren Bewertungsauftrag ein. Der ausgewählte Name muss innerhalb Ihrer AWS-Region eindeutig sein.
2. Geben Sie optional unter Beschreibung – optional eine Beschreibung für Ihren Bewertungsauftrag ein.
3. Klicken Sie unter Evaluatormodell auf Modell auswählen und wählen Sie das Judge-Modell aus, für das Sie Ihre Bewertung durchführen möchten.
Geben Sie die Inferenzquelle für Ihren Bewertungsauftrag ein. Mit den Amazon-Bedrock-Modellbewertungen können Sie entweder die Leistung der Amazon-Bedrock-Modelle bewerten oder die anderer Modelle, indem Sie eigene Inferenzantwortdaten im Prompt-Datensatz bereitstellen. Gehen Sie wie folgt vor, um ein Amazon-Bedrock-Modell auszuwählen:
1. Wählen Sie im Bereich Inferenzquelle unter Quelle auswählen die Option Bedrock-Modelle aus.
2. Klicken Sie unter Modell auswählen auf die Option Modell auswählen.
3. Wählen Sie im Popup-Fenster das Modell aus, das Sie bewerten möchten, und klicken Sie auf Anwenden.
4. (Optional) Wenn Sie die Inferenzparameter des Modells ändern möchten, wählen Sie unter Inferenzkonfiguration die Option Aktualisieren aus.
Gehen Sie wie folgt vor, um eigene Inferenzantwortdaten bereitzustellen:
1. Wählen Sie im Bereich Inferenzquelle unter Quelle auswählen die Option Eigene Inferenzantworten einbringen aus.
2. Geben Sie unter Quellenname einen Namen für das Modell ein, mit dem Sie die Antwortdaten erstellt haben. Der eingegebene Name muss mit dem modelIdentifier-Parameter in Ihrem Prompt-Datensatz übereinstimmen.
Wählen Sie die integrierten Metriken aus, die das Evaluatormodell zur Bewertung der Antworten des Generatormodells verwenden soll, indem Sie im Bereich Metriken mindestens eine Metrik auswählen.
Definieren Sie Ihre Eingabe- und Ausgabeorte für Ihren Datensatz und Ihre Ergebnisse, indem Sie wie folgt vorgehen:
1. Geben Sie im Bereich Datensätze unter Prompt-Datensatz auswählen den Amazon-S3-URI für Ihren Prompt-Datensatz ein oder wählen Sie S3 durchsuchen aus, um Ihre Datei auszuwählen. Eine Definition des erforderlichen Prompt-Datensatzformats für einen Modell-als-Richter-Bewertungsauftrag finden Sie unter Erstellen eines Prompt-Datensatzes für einen Auftrag zur Modellbewertung, das ein Modell als Richter verwendet.
2. Geben Sie unter Bewertungsergebnisse einen Amazon-S3-Speicherort ein, an dem Amazon Bedrock Ihre Ergebnisse ablegen soll, oder wählen Sie S3 durchsuchen aus, um einen Speicherort auszuwählen.
Wählen Sie unter Amazon-Bedrock-IAM-Rolle – Berechtigungen die Option Neue Servicerolle erstellen und verwenden aus, damit Amazon Bedrock eine neue IAM-Rolle für den Bewertungsauftrag erstellt, oder wählen Sie Eine vorhandene Servicerolle verwenden aus, um eine vorhandene IAM-Rolle auszuwählen. Eine Liste der erforderlichen Berechtigungen zum Erstellen und Ausführen eines Bewertungsauftrags finden Sie unter Voraussetzungen.
(Optional) Wenn Sie einen eigenen KMS-Schlüssel zum Verschlüsseln Ihrer Bewertungsdaten verwenden möchten, aktivieren Sie unter KMSkey – Optional die Option Verschlüsselungseinstellungen anpassen (erweitert) und wählen dann Ihren AWS KMS-Schlüssel aus. Amazon Bedrock verschlüsselt die Daten Ihres Bewertungsauftrags standardmäßig mit einem AWS-eigenen KMS-Schlüssel.
Klicken Sie auf Erstellen, um die Erstellung Ihres Bewertungsauftrags abzuschließen.

AWS CLI

Beispiel AWS CLI-Befehl und JSON-Datei zum Erstellen eines Bewertungsauftrags für ein Amazon-Bedrock-Modell


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "applicationType": "ModelEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
    }
}

Beispiel AWS CLI-Befehl und JSON-Datei zum Erstellen eines Bewertungsauftrags, bei dem Sie eigene Inferenzantwortdaten angeben


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen eines Auftrags

Erstellen eines Auftrag mit benutzerdefinierten Metriken