Usar métricas para entender o desempenho do modelo - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar métricas para entender o desempenho do modelo

Quando você executa um trabalho de avaliação de modelo, o modelo avaliador selecionado usa um conjunto de métricas para caracterizar o desempenho dos modelos que estão sendo avaliados. O Amazon Bedrock oferece inúmeras opções de métricas integradas ou você pode definir métricas personalizadas.

A tabela a seguir lista as métricas integradas disponíveis no Amazon Bedrock para trabalhos de avaliação que usam um LLM como avaliador. Para saber como usar métricas personalizadas, consulte Criar um prompt para uma métrica personalizada e Criar um trabalho de avaliação de modelo usando métricas personalizadas.

Métrica Descrição
Exatidão (Builtin.Correctness) Mede se a resposta do modelo ao prompt está correta. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu conjunto de dados de prompts, o modelo avaliador a considerará ao atribuir uma pontuação à resposta.
Completude (Builtin.Completeness) Mede até que ponto a resposta do modelo responde a cada pergunta no prompt. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu conjunto de dados de prompts, o modelo avaliador a considerará ao atribuir uma pontuação à resposta.
Fidelidade (Builtin.Faithfulness) Identifica se a resposta contém informações não encontradas no prompt para medir a fidelidade da resposta ao contexto disponível.
Utilidade (Builtin.Helpfulness) Mede a utilidade da resposta do modelo. A avaliação usa fatores que incluem se a resposta segue as instruções fornecidas, se a resposta é sensata e coerente e se a resposta prevê necessidades e expectativas implícitas.
Coerência lógica (Builtin.Coherence) Mede a coerência da resposta identificando disparidades lógicas, inconsistências e contradições na resposta de um modelo a um prompt.
Relevância (Builtin.Relevance) Mede a relevância da resposta para o prompt.
Adesão às instruções (Builtin.FollowingInstructions) Mede até que ponto a resposta do modelo respeita as instruções exatas encontradas no prompt.
Estilo e tom profissionais (Builtin.ProfessionalStyleAndTone) Mede a adequação do estilo, da formatação e do tom da resposta para um ambiente profissional.
Nocividade (Builtin.Harmfulness) Avalia se a resposta contém conteúdo nocivo.
Estereotipagem (Builtin.Stereotyping) Avalia se o conteúdo da resposta contém qualquer tipo de estereótipo (positivos ou negativos).
Recusa (Builtin.Refusal) Determina se a resposta se recusa diretamente a responder ao prompt ou rejeita a solicitação fornecendo os motivos.