Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di un processo di valutazione del modello utilizzando metriche integrate
Per creare un processo utilizzando le seguenti istruzioni, è necessario un set di dati dei prompt. Se non ne hai ancora creato uno, consulta Creazione di un set di dati dei prompt per un processo di valutazione del modello che utilizza un modello come giudice.
- Console
-
-
Apri la console Amazon Bedrock
. -
Nel riquadro a sinistra in Inferenza e valutazione, seleziona Valutazioni.
-
Nel riquadro Valutazioni dei modelli, scegli Crea e seleziona Automatico: modello come giudice.
-
Inserisci i dettagli della valutazione dei modelli seguendo questa procedura:
-
Nel riquadro Dettagli della valutazione del modello, in Nome della valutazione, inserisci un nome per il processo di valutazione. Il nome specificato deve essere univoco all’interno della Regione AWS.
-
Se lo desideri, in Descrizione - facoltativa, inserisci una descrizione per il processo di valutazione.
-
In Modello valutatore, scegli Seleziona modello e seleziona il modello giudice che intendi utilizzare per eseguire la valutazione.
-
-
Inserisci l’origine di inferenza per il tuo processo di valutazione. Con le valutazioni dei modelli di Amazon Bedrock, puoi verificare le prestazioni dei modelli Amazon Bedrock o di altri modelli fornendo i tuoi dati della risposta di inferenza nel set di dati dei prompt. Per selezionare un modello Amazon Bedrock, procedi come segue:
-
Nel riquadro Origine di inferenza, in Seleziona l’origine, scegli Modelli Bedrock.
-
In Seleziona modello scegli Seleziona modello.
-
Nel pop-up, seleziona il modello che desideri valutare e scegli Applica.
-
(Facoltativo) Per modificare i parametri di inferenza del modello, per Configurazione dell’inferenza, scegli Aggiorna.
-
-
Per importare i tuoi dati della risposta di inferenza, procedi come segue:
-
Nel riquadro Origine di inferenza, in Seleziona l’origine scegli Porta le tue risposte di inferenza.
-
Per Nome dell’origine, inserisci un nome per il modello che hai utilizzato per creare i dati di risposta. Il nome immesso deve corrispondere al parametro
modelIdentifiernel set di dati dei prompt.
-
-
Scegli le metriche integrate in base a cui il modello di valutatore dovrà valutare le risposte del modello di generatore selezionando almeno una metrica nel riquadro Metriche.
-
Definisci le posizioni di input e output per il set di dati e i risultati effettuando le seguenti operazioni:
-
Nel riquadro Set di dati in Scegli un set di dati dei prompt, inserisci l’URI Amazon S3 per il set di dati dei prompt oppure scegli Sfoglia S3 e seleziona il tuo file. Per consultare una definizione del formato del set di dati di prompt richiesto per un processo di valutazione di un modello come giudice, consulta Creazione di un set di dati dei prompt per un processo di valutazione del modello che utilizza un modello come giudice.
-
In Risultati della valutazione, inserisci una posizione Amazon S3 in cui Amazon Bedrock possa salvare i risultati oppure scegli Sfoglia S3 per selezionare una posizione.
-
-
In Ruolo IAM di Amazon Bedrock - Autorizzazioni, seleziona Crea e usa un nuovo ruolo di servizio per fare in modo che Amazon Bedrock crei un nuovo ruolo IAM per il processo di valutazione oppure seleziona Utilizza un ruolo di servizio esistente per selezionare un ruolo IAM esistente. Per un elenco delle autorizzazioni necessarie per creare ed eseguire un processo di valutazione, consulta Prerequisiti.
-
(Facoltativo) Per utilizzare la tua chiave KMS per crittografare i dati di valutazione, in Chiave KMSkey - facoltativo, seleziona Personalizza le impostazioni di crittografia (avanzate) e seleziona la tua chiave AWS KMS. Per impostazione predefinita, Amazon Bedrock crittografa i dati dei processi di valutazione con una chiave KMS di proprietà di AWS.
-
Scegli Crea per completare la creazione del processo di valutazione.
-
- AWS CLI
-
Esempio Comando AWS CLI e file JSON per creare un processo di valutazione per un modello Amazon Bedrock
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "applicationType": "ModelEvaluation", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "bedrockModel": { "modelIdentifier": "anthropic.claude-v2", "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output_data/" } }Esempio Comando AWS CLI e file JSON per creare un processo di valutazione quando vengono forniti dati della risposta di inferenza personalizzati
aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json{ "jobName":"model-eval-llmaj", "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest", "evaluationConfig": { "automated": { "datasetMetricConfigs": [ { "taskType": "General", "dataset": { "name": "text_dataset", "datasetLocation": { "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl" } }, "metricNames": [ "Builtin.Correctness", "Builtin.Completeness" ] } ], "evaluatorModelConfig": { "bedrockEvaluatorModels": [ { "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0" } ] } } }, "inferenceConfig": { "models": [ { "precomputedInferenceSource": { "inferenceSourceIdentifier": "my_model" } } ] }, "outputDataConfig": { "s3Uri": "s3://amzn-s3-demo-bucket/output/" } }