Creazione di un processo di valutazione del modello che utilizza un LLM-as-a-judge - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di un processo di valutazione del modello che utilizza un LLM-as-a-judge

È possibile creare un processo di valutazione del Console di gestione AWS modello utilizzando o un AWS SDK supportato. AWS CLI

Questo tipo di processo richiede l’accesso a un modello del sistema di valutazione. Se stai valutando le prestazioni di un modello Amazon Bedrock, devi accedere anche a tale modello. Entrambi i modelli devono essere disponibili nella stessa Regione AWS. Per un elenco dei modelli supportati per la generazione e la valutazione, consulta Modelli supportati.

Prerequisiti

Oltre ad avere accesso ad almeno un modello di valutazione, per creare un processo di valutazione che utilizzi un LLM-as-a-judge, sono necessarie anche determinate autorizzazioni del ruolo di servizio IAM. Per ulteriori informazioni sulle azioni necessarie e sui requisiti delle policy di attendibilità, consulta Autorizzazioni necessarie per il ruolo di servizio per la creazione di un processo di valutazione del modello che utilizza un modello arbitro.

Quando crei il processo, specifichi un set di dati dei prompt in un bucket Amazon S3 e in un bucket di output in cui archiviare i risultati. Per garantire che i bucket S3 dispongano delle autorizzazioni CORS necessarie, consulta Autorizzazioni CORS (Cross Origin Resource Sharing) richiesta per i bucket S3

Per creare un processo nella console, la console necessita dell’autorizzazione per eseguire un determinato set di azioni e avere accesso alle risorse necessarie. La seguente policy definisce un set minimo di autorizzazioni IAM necessarie per creare un processo nella console. Nella policy, si consiglia di utilizzare l’elemento Risorsa della policy JSON IAM per limitare l’accesso solo ai modelli e ai bucket richiesti per l’utente, il gruppo o il ruolo IAM.

La policy IAM deve concedere l’accesso sia al modello di generatore che del sistema di valutazione.

JSON
{ "Version":"2012-10-17", "Statement": [ { "Sid": "BedrockConsole", "Effect": "Allow", "Action": [ "bedrock:CreateEvaluationJob", "bedrock:GetEvaluationJob", "bedrock:ListEvaluationJobs", "bedrock:StopEvaluationJob", "bedrock:GetCustomModel", "bedrock:ListCustomModels", "bedrock:CreateProvisionedModelThroughput", "bedrock:UpdateProvisionedModelThroughput", "bedrock:GetProvisionedModelThroughput", "bedrock:ListProvisionedModelThroughputs", "bedrock:GetImportedModel", "bedrock:ListImportedModels", "bedrock:ListTagsForResource", "bedrock:UntagResource", "bedrock:TagResource" ], "Resource": [ "arn:aws:bedrock:us-west-2::foundation-model/*;" ] }, { "Sid": "AllowConsoleS3AccessForModelEvaluation", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:GetBucketCORS", "s3:ListBucket", "s3:ListBucketVersions", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-destination-bucket/*", "arn:aws:s3:::input_datasets/prompts.jsonl" ] } ] }
Nota

Questa policy di esempio fornisce le autorizzazioni per tutti i modelli di fondazione di Amazon Bedrock. In un ambiente di produzione, si consiglia di seguire il principale di privilegio minimo e di concedere le autorizzazioni solo per i modelli necessari.

Puoi creare un processo di valutazione utilizzando solo le metriche integrate di Amazon Bedrock oppure puoi creare un processo che utilizza le metriche personalizzate. Per le istruzioni sulla creazione di processi di valutazione del modello, consulta le sezioni seguenti.