As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar um trabalho de avaliação de modelo realizado por humanos
Veja os exemplos de como criar um trabalho de avaliação de modelo que utiliza trabalhadores humanos.
Console
Como criar um trabalho de avaliação de modelo que utiliza trabalhadores humanos
-
Abra o console do Amazon Bedrock
. -
No painel de navegação, em Inferência e avaliação, escolha Avaliações.
-
No painel Avaliação do modelo, em Humano, escolha Criar e selecione Humano: traga sua própria equipe de trabalho.
-
Na página Especificar detalhes do trabalho, forneça as informações a seguir.
-
Nome da avaliação: dê ao trabalho de avaliação de modelo um nome que descreva o trabalho. Esse nome é mostrado na lista de trabalhos de avaliação de modelo. O nome deve ser único na sua conta em uma Região da AWS.
-
Descrição (opcional): forneça uma descrição opcional.
-
Escolha Próximo.
-
-
Na página Configurar avaliação, em Fonte de inferência, selecione a fonte para sua avaliação de modelo. Você pode avaliar o desempenho dos modelos do Amazon Bedrock ou de outros modelos fornecendo seus próprios dados de resposta de inferência em seu conjunto de dados de prompts. É possível selecionar até duas fontes de inferência. Para trabalhos com duas fontes, você não precisa escolher o mesmo tipo para ambas as fontes; você pode selecionar um modelo do Amazon Bedrock e fornecer seus próprios dados de resposta de inferência para a segunda fonte. Para avaliar modelos do Amazon Bedrock, faça o seguinte:
-
Em Selecionar origem, escolha Modelos do Bedrock.
-
Escolha Selecionar modelo para escolher o modelo que você deseja avaliar.
-
Para selecionar um segundo modelo, escolha Adicionar modelo e repita as etapas anteriores.
-
-
Para trazer seus próprios dados de resposta de inferência, faça o seguinte:
-
Em Selecionar origem, escolha Traga suas próprias respostas de inferência.
-
Em Nome da origem, insira um nome para o modelo usado para criar os dados de resposta. O nome inserido deve corresponder ao parâmetro
modelIdentifierno conjunto de dados de prompts. -
Para selecionar um segundo modelo, escolha Adicionar modelo e repita as etapas anteriores.
-
-
Em Tipo de tarefa, selecione o tipo de tarefa que você deseja que o modelo realize durante o trabalho de avaliação de modelo. Todas as instruções para o modelo devem ser incluídas nos próprios prompts. O tipo de tarefa não controla as respostas do modelo.
-
No painel Conjuntos de dados, forneça as informações a seguir.
-
Em Escolha um conjunto de dados de prompts, especifique o URI do S3 do arquivo do conjunto de dados de prompts ou selecione Procurar no S3 para ver os buckets do S3 disponíveis. É possível ter até mil prompts em um conjunto de dados de prompts personalizado.
-
Em Destino dos resultados da avaliação, especifique o URI do S3 do diretório em que deseja que os resultados do trabalho de avaliação de modelo sejam salvos ou escolha Procurar no S3 para ver os buckets do S3 disponíveis.
-
-
(Opcional) Em Chave do KMS: opcional, forneça o ARN da chave gerenciada pelo cliente a ser usada para criptografar o trabalho de avaliação de modelo.
-
No painel Perfil do IAM do Amazon Bedrock: permissões, faça o que se apresenta a seguir. Para saber mais sobre as permissões necessárias para avaliações de modelo, consulte Requisitos de perfil de serviço para trabalhos de avaliação de modelo.
-
Para usar um perfil de serviço do Amazon Bedrock existente, escolha Usar um perfil de serviço existente. Caso contrário, use Criar um perfil para especificar os detalhes do novo perfil de serviço do IAM.
-
Em Nome do perfil de serviço, especifique o nome do perfil de serviço do IAM.
-
Quando tudo estiver pronto, escolha Criar perfil para criar o perfil de serviço do IAM.
-
-
Escolha Próximo.
-
Em Equipe de trabalho, use o menu suspenso Selecionar equipe para escolher uma equipe existente ou criar uma fazendo o seguinte:
-
Em Nome da equipe, insira um nome para a equipe.
-
Em Endereços de e-mail, insira os endereços de e-mail dos trabalhadores humanos da sua equipe.
-
Em Número de trabalhadores por prompt, selecione o número de trabalhadores que avaliam cada prompt. Depois que as respostas de cada prompt forem analisadas pelo número definido de operadores, o prompt e suas respostas serão retirados de circulação da equipe de trabalho. O relatório dos resultados finais incluirá todas as classificações de cada operador.
Importante
Sabe-se que grandes modelos de linguagem ocasionalmente alucinam e geram conteúdo tóxico ou ofensivo. Os operadores poderão ser expostos a material tóxico ou ofensivo durante essa avaliação. Tome as medidas adequadas para treiná-los e notificá-los antes que eles trabalhem na avaliação. Eles podem recusar e largar tarefas ou fazer pausas durante a avaliação enquanto acessam a ferramenta de avaliação humana.
-
-
Em Perfil do IAM de fluxo de trabalho humano: permissões, selecione um perfil existente ou selecione Criar um perfil.
-
Escolha Próximo.
-
Em Instruções de avaliação, forneça instruções sobre como concluir a tarefa. É possível pré-visualizar a interface do usuário da avaliação que a equipe de trabalho usará para avaliar as respostas, incluindo as métricas, os métodos de classificação e suas instruções. Essa pré-visualização é baseada na configuração que você criou para esse trabalho.
-
Escolha Próximo.
-
Analise a configuração do trabalho e selecione Criar para criá-lo.
nota
Depois que o trabalho for iniciado com sucesso, o status mudará para Em andamento. Quando o trabalho for concluído, o status será alterado para Concluído. Enquanto um trabalho de avaliação de modelo ainda estiver Em andamento, é possível optar por interromper o trabalho antes que todas as respostas dos modelos tenham sido avaliadas pela sua equipe de trabalho. Para fazer isso, escolha Interromper avaliação na página inicial da avaliação de modelo. Isso mudará o Status do trabalho de avaliação de modelo para Parando. Depois que o trabalho de avaliação de modelo for interrompido com êxito, o trabalho de avaliação de modelo poderá ser excluído.
API e AWS CLI
Ao criar um trabalho de avaliação de modelo realizado por humanos fora do console do Amazon Bedrock, é necessário criar um ARN de definição de fluxo do Amazon SageMaker AI.
O ARN de definição de fluxo é onde o fluxo de trabalho de um trabalho de avaliação de modelo é definido. A definição de fluxo é usada para configurar a interface do trabalhador e a equipe de trabalho que você deseja atribuir à tarefa e conectar ao Amazon Bedrock.
Para trabalhos de avaliação de modelo iniciados por meio de operações de API do Amazon Bedrock, você deve criar um ARN de definição de fluxo usando a AWS CLI ou um SDK da AWS compatível. Para saber mais sobre como as definições de fluxo funcionam e como criá-las de forma programática, consulte Criar um fluxo de trabalho de análise humana (API) no Guia do desenvolvedor do SageMaker AI.
Em CreateFlowDefinition especifique AWS/Bedrock/Evaluation como entrada para a AwsManagedHumanLoopRequestSource. O perfil de serviço do Amazon Bedrock também deve ter permissões para acessar o bucket de saída da definição de fluxo.
Veja a seguir um exemplo de solicitação que usa a AWS CLI. Na solicitação, HumanTaskUiArn é um ARN de propriedade do SageMaker AI. No ARN, só é possível modificar a Região da AWS.
aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Região da AWS:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the Região da AWS. "HumanTaskUiArn":"arn:aws:sagemaker:Região da AWS:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://amzn-s3-demo-destination-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'
Depois de criar seu ARN de definição de fluxo, use os exemplos a seguir para criar um trabalho de avaliação de modelo realizado por humanos usando a AWS CLI ou um SDK da AWS compatível.