Criar um trabalho de avaliação de modelo usando métricas integradas

Para criar um trabalho usando as instruções a seguir, você precisa de um conjunto de dados de prompts. Se você ainda não criou um, consulte Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador.

Console

Abra o console do Amazon Bedrock.
No painel à esquerda, em Inferência e avaliação, selecione Avaliações.
No painel Avaliações de modelos, escolha Criar e selecione Automático: Modelo como juiz.
Para inserir os detalhes da avaliação de modelo, faça o seguinte:
1. No painel Detalhes da avaliação do modelo, em Nome da avaliação, insira um nome para seu trabalho de avaliação. O nome que você escolher deve ser exclusivo em seu Região da AWS.
2. Opcionalmente, em Descrição: opcional, insira uma descrição para o trabalho de avaliação.
3. Em Modelo de avaliador, escolha Selecionar modelo e selecione o modelo avaliador que você deseja que realize sua avaliação.
Insira a fonte de inferência para o trabalho de avaliação. Com as avaliações de modelo do Amazon Bedrock, você pode avaliar o desempenho dos modelos do Amazon Bedrock ou de outros modelos fornecendo seus próprios dados de resposta de inferência no conjunto de dados de prompts. Para selecionar um modelo do Amazon Bedrock, faça o seguinte:
1. No painel Fonte de inferência, em Selecionar origem, escolha Modelos do Bedrock.
2. Em Selecionar modelo, escolha Selecionar modelo.
3. No pop-up, selecione o modelo que você deseja avaliar e escolha Aplicar.
4. (Opcional) Para alterar os parâmetros de inferência do modelo, em Configuração de inferência, escolha Atualizar.
Para trazer seus próprios dados de resposta de inferência, faça o seguinte:
1. No painel Fonte de inferência, em Selecionar origem, escolha Trazer suas próprias respostas de inferência.
2. Em Nome da origem, insira um nome para o modelo usado para criar os dados de resposta. O nome inserido deve corresponder ao parâmetro modelIdentifier no conjunto de dados de prompts.
Selecione as métricas integradas que você deseja que o modelo use para classificar as respostas do modelo selecionando pelo menos uma métrica no painel Métricas.
Defina os locais de entrada e saída para o conjunto de dados e os resultados fazendo o seguinte:
1. No painel Conjuntos de dados, em Escolha um conjunto de dados de prompts, insira o URI do Amazon S3 para o conjunto de dados de prompts ou escolha Procurar no S3 e selecione o arquivo. Para ver uma definição do formato de conjunto de dados de prompts necessário para um trabalho de avaliação de modelo como avaliador, consulte Criar um conjunto de dados de prompts para um trabalho de avaliação de modelo que utilizam um modelo como avaliador.
2. Em Resultados da avaliação, insira um local do Amazon S3 para que o Amazon Bedrock salve seus resultados ou escolha Procurar no S3 para selecionar um local.
Em Perfil do IAM do Amazon Bedrock: Permissões, selecione Criar e usar um novo perfil de serviço para que o Amazon Bedrock crie um perfil do IAM para o trabalho de avaliação ou selecione Usar um perfil de serviço existente para escolher um perfil do IAM existente. Para ver uma lista das permissões necessárias para criar e executar um trabalho de avaliação, consulte Pré-requisitos.
(Opcional) para usar sua própria chave KMS para criptografar seus dados de avaliação, em KMSKey - Opcional, marque Personalizar configurações de criptografia (avançadas) e selecione sua chave. AWS KMS Por padrão, o Amazon Bedrock criptografa os dados do trabalho de avaliação com uma chave do Amazon Bedrock com uma chave do Amazon AWS Bedrock.
Selecione Criar para concluir a criação do trabalho de avaliação.

AWS CLI

exemplo AWS CLI comando e arquivo JSON para criar um trabalho de avaliação para um modelo Amazon Bedrock


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "applicationType": "ModelEvaluation",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input_datasets/text_dataset_input.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier": "anthropic.claude-v2",
                    "inferenceParams": "{\"inferenceConfig\":{\"maxTokens\":512,\"temperature\":1,\"topP\":0.999,\"stopSequences\":[\"stop\"]},\"additionalModelRequestFields\":{\"top_k\": 128}}"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output_data/"
    }
}

exemplo AWS CLI comando e arquivo JSON para criar um trabalho de avaliação em que você fornece seus próprios dados de resposta de inferência


aws bedrock create-evaluation-job --cli-input-json file://my_eval_job.json


{
    "jobName": "model-eval-llmaj",
    "roleArn": "arn:aws:iam::111122223333:role/Amazon-Bedrock-ModelAsAJudgeTest",
    "evaluationConfig": {
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "General",
                    "dataset": {
                        "name": "text_dataset",
                        "datasetLocation": {
                            "s3Uri": "s3://amzn-s3-demo-bucket/input/model-eval/fitness-dataset-model-eval-byoi.jsonl"
                        }
                    },
                    "metricNames": [
                        "Builtin.Correctness",
                        "Builtin.Completeness"
                    ]
                }
            ],
            "evaluatorModelConfig": {
                "bedrockEvaluatorModels": [
                    {
                        "modelIdentifier": "us.meta.llama3-1-70b-instruct-v1:0"
                    }
                ]
            }
        }
    },
    "inferenceConfig": {
        "models": [
            {
                "precomputedInferenceSource": {
                    "inferenceSourceIdentifier": "my_model"
                }
            }
        ]
    },
    "outputDataConfig": {
        "s3Uri": "s3://amzn-s3-demo-bucket/output/"
    }
}

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Criar um trabalho

Criar um trabalho com métricas personalizadas