Iniciar um trabalho automático de avaliação de modelo no Amazon Bedrock

É possível criar um trabalho de avaliação de modelo automática usando o Console de gerenciamento da AWS, a AWS CLI ou um SDK da AWS compatível. Em um trabalho automática de avaliação de modelo, o modelo selecionado realiza inferência usando prompts de um conjunto de dados integrado compatível ou seu próprio conjunto de dados de prompts personalizados. Cada trabalho também exige que você selecione um tipo de tarefa. O tipo de tarefa fornece algumas métricas recomendadas e conjuntos de dados de prompts integrados. Para saber mais sobre os tipos de tarefa e métricas disponíveis, consulte Tipos de tarefa de avaliação de modelo no Amazon Bedrock.

Os exemplos a seguir mostram como criar um trabalho automático de avaliação de modelo usando o console do Amazon Bedrock, a AWS CLI e o SDK para Python.

Todos os trabalhos automáticos de avaliação de modelo exigem que você crie um perfil de serviço do IAM. Para saber mais sobre os requisitos do IAM para configurar um trabalho de avaliação de modelo, consulte Requisitos de perfil de serviço para trabalhos de avaliação de modelo.

Os exemplos a seguir mostram como criar um trabalho automático de avaliação de modelo. Na API, você também pode incluir um perfil de inferência no trabalho especificando seu ARN no campo modelIdentifier.

Amazon Bedrock console

Use o procedimento a seguir para criar um trabalho de avaliação de modelo no console do Amazon Bedrock. Para concluir esse procedimento com êxito, verifique se o usuário, o grupo ou o perfil do IAM tem permissões suficientes para acessar o console. Para saber mais, consulte Permissões necessárias para criar um trabalho de avaliação de modelo automática.

Além disso, qualquer conjunto de dados de prompt personalizado que você queira especificar no trabalho de avaliação de modelo deve ter as permissões CORS necessárias adicionadas ao bucket do Amazon S3. Para saber mais sobre como adicionar as permissões CORS necessárias, consulte Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3.

Como criar um trabalho automático de avaliação de modelo

Abra o console do Amazon Bedrock: https://console.aws.amazon.com/bedrock/
No painel de navegação, selecione Avaliação de modelos.
No cartão Criar uma avaliação, em Automática, escolha Criar avaliação automática.
Na página Criar avaliação automática, forneça as seguintes informações:
1. Nome da avaliação: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na lista de trabalhos de avaliação de modelo. O nome deve ser único na sua conta em uma Região da AWS.
2. Descrição (opcional): forneça uma descrição opcional.
3. Modelos: escolha o modelo que deseja usar no trabalho de avaliação de modelo.
  
  Para saber mais sobre os modelos disponíveis no Amazon Bedrock, consulte Acessar modelos de base do Amazon Bedrock.
4. (Opcional) Para alterar a configuração de inferência, escolha atualizar.
  
  A alteração da configuração de inferência altera as respostas geradas pelos modelos selecionados. Para saber mais sobre os parâmetros de inferência disponíveis, consulte Parâmetros de solicitação de inferência e campos de resposta para modelos de base.
5. Tipo de tarefa: escolha o tipo de tarefa que você deseja que o modelo tente realizar durante o trabalho de avaliação de modelo.
6. Métricas e conjuntos de dados: a lista de métricas disponíveis e os conjuntos de dados de prompts integrados mudam com base na tarefa selecionada. É possível escolher na lista Conjuntos de dados integrados disponíveis ou selecionar Usar seu próprio conjunto de dados de prompts. Se escolher usar seu próprio conjunto de dados, insira o URI exato do S3 do arquivo do conjunto de dados de prompts ou escolha Procurar no S3 para pesquisar o conjunto de dados de prompts.
7. Resultados da avaliação: especifique o URI do S3 do diretório em que deseja que os resultados do trabalho sejam salvos. Escolha Procurar no S3 para pesquisar locais do Amazon S3.
8. (Opcional) Para habilitar o uso de uma chave gerenciada pelo cliente, escolha Personalizar as configurações de criptografia (avançado). Forneça o ARN da chave do AWS KMS que deseja usar.
9. Perfil do IAM do Amazon Bedrock: escolha Usar um perfil existente para usar o perfil de serviço do IAM que já tenha as permissões necessárias ou escolha Criar um perfil para criar um perfil de serviço do IAM.
Escolha Criar.

Depois que o status for alterado para Concluído, o boletim do trabalho poderá ser visualizado.

SDK for Python

O exemplo a seguir cria um trabalho automático de avaliação usando o Python.


import boto3
client = boto3.client('bedrock')

job_request = client.create_evaluation_job(
    jobName="api-auto-job-titan",
    jobDescription="two different task types",
    roleArn="arn:aws:iam::111122223333:role/role-name",
    inferenceConfig={
        "models": [
            {
                "bedrockModel": {
                    "modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1",
                    "inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"
                }

            }
        ]

    },
    outputDataConfig={
        "s3Uri":"s3://amzn-s3-demo-bucket-model-evaluations/outputs/"
    },
    evaluationConfig={
        "automated": {
            "datasetMetricConfigs": [
                {
                    "taskType": "QuestionAndAnswer",
                    "dataset": {
                        "name": "Builtin.BoolQ"
                    },
                    "metricNames": [
                        "Builtin.Accuracy",
                        "Builtin.Robustness"
                    ]
                }
            ]
        }
    }
)

print(job_request)

AWS CLI

Na AWS CLI, é possível usar o comando help para ver quais parâmetros são necessários e quais são opcionais ao especificar create-evaluation-job na AWS CLI.


aws bedrock create-evaluation-job help


aws bedrock create-evaluation-job \
--job-name 'automatic-eval-job-cli-001' \
--role-arn 'arn:aws:iam::111122223333:role/role-name' \
--evaluation-config '{"automated": {"datasetMetricConfigs": [{"taskType": "QuestionAndAnswer","dataset": {"name": "Builtin.BoolQ"},"metricNames": ["Builtin.Accuracy","Builtin.Robustness"]}]}}' \
--inference-config '{"models": [{"bedrockModel": {"modelIdentifier":"arn:aws:bedrock:us-west-2::foundation-model/amazon.titan-text-lite-v1","inferenceParams":"{\"inferenceConfig\":{\"maxTokens\": 512,\"temperature\":0.7,\"topP\":0.9}}"}}]}' \
--output-data-config '{"s3Uri":"s3://automatic-eval-jobs/outputs"}'

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

conjuntos de dados de prompts

Listar trabalho