As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Avaliar o desempenho do modelo usando outro LLM como avaliador
Com um trabalho de avaliação de modelo que usa um modelo como avaliador, o Amazon Bedrock utiliza um LLM para classificar as respostas de outro modelo e fornecer uma explicação de como ele atribuiu uma pontuação a cada par de prompt-resposta. As pontuações e explicações estão disponíveis no console do Amazon Bedrock por meio da página Avaliações
Esse tipo de avaliação de modelo requer dois modelos diferentes, um modelo gerador e um modelo avaliador. Você define prompts para o modelo gerador em um conjunto de dados, e o modelo avaliador classifica as respostas a esses prompts com base nas métricas selecionadas.
O cartão de resumo de métricas no console exibe um histograma que mostra o número de vezes que as respostas receberam determinada pontuação e explicações sobre a pontuação dos cinco primeiros prompts encontrados no conjunto de dados. O relatório do trabalho de avaliação completo está disponível no bucket do Amazon S3 que você especificou ao criar o trabalho de avaliação de modelo.
Ao criar o trabalho de avaliação de modelo, você pode selecionar um modelo do Amazon Bedrock como gerador ou avaliar um modelo que não seja do Amazon Bedrock fornecendo seus próprios dados de resposta de inferência no conjunto de dados de prompts. Se você fornecer seus próprios dados de resposta, o Amazon Bedrock ignorará a etapa de invocação do modelo e avaliará diretamente os dados fornecidos.
Para avaliar as respostas dos modelos geradores, o Amazon Bedrock fornece um conjunto de métricas integradas que você pode selecionar. Cada métrica usa um prompt diferente para o modelo avaliador. Também é possível definir suas métricas personalizadas para seu caso de negócios específico. Para saber mais, consulte Usar métricas para entender o desempenho do modelo.
Modelos compatíveis
Modelos avaliadores compatíveis (métricas integradas)
Para criar um trabalho de avaliação que usa um LLM como avaliador com as métricas integradas do Amazon Bedrock, é necessário acessar pelo menos um dos modelos avaliadores na lista a seguir. Para saber mais sobre como obter acesso aos modelos e regiões disponíveis, consulte Acessar modelos de base do Amazon Bedrock.
-
Amazon Nova Pro –
amazon.nova-pro-v1:0 -
Claude 3.5 Sonnet v1 da Anthropic:
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Claude 3.5 Sonnet v2 da Anthropic:
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Mistral Large –
mistral.mistral-large-2402-v1:0
É possível usar perfis de inferência entre regiões com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões permitidos.
Modelos avaliadores compatíveis (métricas personalizadas)
Para criar um trabalho de avaliação que usa um LLM como avaliador com métricas personalizadas, é necessário acessar pelo menos um dos modelos avaliadores na lista a seguir.
-
Mistral Large 24.02:
mistral.mistral-large-2402-v1:0 -
Mistral Large 24.07:
mistral.mistral-large-2407-v1:0 -
Claude 3.5 Sonnet v1 da Anthropic:
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Claude 3.5 Sonnet v2 da Anthropic:
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Claude 3 Haiku 3 da Anthropic:
anthropic.claude-3-haiku-20240307-v1:0 -
Claude 3 Haiku 3.5 da Anthropic:
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0 -
Amazon Nova Pro –
amazon.nova-pro-v1:0
É possível usar perfis de inferência entre regiões com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões permitidos.
Modelos geradores compatíveis
É possível usar os tipos de modelo a seguir no Amazon Bedrock como modelo gerador em um trabalho de avaliação. Também é possível trazer seus próprios dados de respostas de inferência de modelos do Amazon Bedrock.
-
Modelos de base: Informações sobre modelos de base do Amazon Bedrock
-
Modelos do Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
-
Modelos de base personalizados: Personalizar o modelo para melhorar a performance para o caso de uso
-
Modelos de base importados: Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock
-
Roteadores de prompts: Conceitos básicos sobre o Roteamento inteligente de prompts do Amazon Bedrock
-
Modelos para os quais você comprou throughput provisionado: Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock