Creazione di un processo di valutazione del modello utilizzando metriche integrate

Per creare un processo utilizzando le seguenti istruzioni, è necessario un set di dati dei prompt. Se non ne hai ancora creato uno, consulta Creazione di un set di dati dei prompt per un processo di valutazione del modello che utilizza un modello come giudice.

Console

Apri la console Amazon Bedrock.
Nel riquadro a sinistra in Inferenza e valutazione, seleziona Valutazioni.
Nel riquadro Valutazioni dei modelli, scegli Crea e seleziona Automatico: modello come giudice.
Inserisci i dettagli della valutazione dei modelli seguendo questa procedura:
1. Nel riquadro Dettagli della valutazione del modello, in Nome della valutazione, inserisci un nome per il processo di valutazione. Il nome che scegli deve essere unico all'interno del tuo Regione AWS.
2. Se lo desideri, in Descrizione - facoltativa, inserisci una descrizione per il processo di valutazione.
3. In Modello valutatore, scegli Seleziona modello e seleziona il modello giudice che intendi utilizzare per eseguire la valutazione.
Inserisci l’origine di inferenza per il tuo processo di valutazione. Con le valutazioni dei modelli di Amazon Bedrock, puoi verificare le prestazioni dei modelli Amazon Bedrock o di altri modelli fornendo i tuoi dati della risposta di inferenza nel set di dati dei prompt. Per selezionare un modello Amazon Bedrock, procedi come segue:
1. Nel riquadro Origine di inferenza, in Seleziona l’origine, scegli Modelli Bedrock.
2. In Seleziona modello scegli Seleziona modello.
3. Nel pop-up, seleziona il modello che desideri valutare e scegli Applica.
4. (Facoltativo) Per modificare i parametri di inferenza del modello, per Configurazione dell’inferenza, scegli Aggiorna.
Per importare i tuoi dati della risposta di inferenza, procedi come segue:
1. Nel riquadro Origine di inferenza, in Seleziona l’origine scegli Porta le tue risposte di inferenza.
2. Per Nome dell’origine, inserisci un nome per il modello che hai utilizzato per creare i dati di risposta. Il nome immesso deve corrispondere al parametro modelIdentifier nel set di dati dei prompt.
Scegli le metriche integrate in base a cui il modello di valutatore dovrà valutare le risposte del modello di generatore selezionando almeno una metrica nel riquadro Metriche.
Definisci le posizioni di input e output per il set di dati e i risultati effettuando le seguenti operazioni:
1. Nel riquadro Set di dati in Scegli un set di dati dei prompt, inserisci l’URI Amazon S3 per il set di dati dei prompt oppure scegli Sfoglia S3 e seleziona il tuo file. Per consultare una definizione del formato del set di dati di prompt richiesto per un processo di valutazione di un modello come giudice, consulta Creazione di un set di dati dei prompt per un processo di valutazione del modello che utilizza un modello come giudice.
2. In Risultati della valutazione, inserisci una posizione Amazon S3 in cui Amazon Bedrock possa salvare i risultati oppure scegli Sfoglia S3 per selezionare una posizione.
In Ruolo IAM di Amazon Bedrock - Autorizzazioni, seleziona Crea e usa un nuovo ruolo di servizio per fare in modo che Amazon Bedrock crei un nuovo ruolo IAM per il processo di valutazione oppure seleziona Utilizza un ruolo di servizio esistente per selezionare un ruolo IAM esistente. Per un elenco delle autorizzazioni necessarie per creare ed eseguire un processo di valutazione, consulta Prerequisiti.
(Facoltativo) per utilizzare la tua chiave KMS per crittografare i dati di valutazione, in KMSKey - Opzionale, seleziona Personalizza le impostazioni di crittografia (avanzate) e seleziona la tua chiave. AWS KMS Per impostazione predefinita, Amazon Bedrock crittografa i dati dei processi di valutazione con una chiave KMS di proprietà di AWS.
Scegli Crea per completare la creazione del bucket.

AWS CLI

Esempio AWS CLI comando e file JSON per creare un processo di valutazione per un modello Amazon Bedrock


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "applicationType": "ModelEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
    }
}

Esempio AWS CLI comando e file JSON per creare un processo di valutazione in cui fornire i propri dati di risposta all'inferenza


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Creazione di un processo

Creare un processo con metriche personalizzate