Criar um trabalho de avaliação de modelo que utiliza um LLM como avaliador

Você pode criar um trabalho de avaliação de modelo usando o Console de gerenciamento da AWS, AWS CLI, ou um AWS SDK compatível.

Esse tipo de trabalho requer acesso a um modelo avaliador. Se você estiver avaliando o desempenho de um modelo do Amazon Bedrock, também precisará acessá-lo. Ambos os modelos devem estar disponíveis na mesma Região da AWS. Para ver uma lista de modelos geradores e avaliadores compatíveis, consulte Modelos compatíveis.

Pré-requisitos

Além de acesso a pelo menos um modelo avaliador, para criar um trabalho de avaliação que usa um LLM como avaliador, você também precisa de determinadas permissões de perfil de serviço do IAM. Para saber mais sobre as ações necessárias e os requisitos de política de confiança, consulte Permissões de perfil de serviço necessárias para criar um trabalho de avaliação de modelo que utiliza um modelo avaliador.

Ao criar o trabalho, você especifica um conjunto de dados de prompts em um bucket do Amazon S3 e um bucket de saída para armazenar os resultados. A configuração do CORS não é necessária para trabalhos LLM-as-a-judge de avaliação. Para trabalhos de avaliação baseados em humanos, consulte Permissões de compartilhamento de recursos de origem cruzada (CORS) necessárias em buckets do S3

Para criar um trabalho no console, o console precisa de permissão para realizar um determinado conjunto de ações e ter acesso aos recursos necessários. A política a seguir define um conjunto mínimo de permissões do IAM necessário para criar um trabalho no console. Na política, recomendamos usar o elemento de política JSON Resource do IAM para limitar o acesso somente aos modelos e buckets necessários ao usuário, grupo ou perfil do IAM.

A política do IAM deve conceder acesso aos modelos gerador e avaliador.

nota

Este exemplo de política fornece permissões para todos os modelos de base do Amazon Bedrock. Em um ambiente de produção, recomendamos que você siga a entidade principal do privilégio mínimo e conceda permissões somente aos modelos de que precisa.

Você pode criar um trabalho de avaliação usando somente as métricas integradas do Amazon Bedrock ou criar um trabalho que use suas métricas personalizadas. Para obter instruções sobre como criar trabalhos de avaliação de modelo, consulte as seções a seguir.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Prompts de métricas personalizadas

Criar um trabalho com métricas integradas