Usar métricas para entender o desempenho do modelo

Quando você executa um trabalho de avaliação de modelo, o modelo avaliador selecionado usa um conjunto de métricas para caracterizar o desempenho dos modelos que estão sendo avaliados. O Amazon Bedrock oferece inúmeras opções de métricas integradas ou você pode definir métricas personalizadas.

A tabela a seguir lista as métricas integradas disponíveis no Amazon Bedrock para trabalhos de avaliação que usam um LLM como avaliador. Para saber como usar métricas personalizadas, consulte Criar um prompt para uma métrica personalizada e Criar um trabalho de avaliação de modelo usando métricas personalizadas.

Métrica	Description
Exatidão (`Builtin.Correctness`)	Mede se a resposta do modelo ao prompt está correta. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu conjunto de dados de prompts, o modelo avaliador a considerará ao atribuir uma pontuação à resposta.
Completude (`Builtin.Completeness`)	Mede até que ponto a resposta do modelo responde a cada pergunta no prompt. Observe que, se você fornecer uma resposta baseada em referências (verdade de referência) como parte do seu conjunto de dados de prompts, o modelo avaliador a considerará ao atribuir uma pontuação à resposta.
Fidelidade (`Builtin.Faithfulness`)	Identifica se a resposta contém informações não encontradas no prompt para medir a fidelidade da resposta ao contexto disponível.
Utilidade (`Builtin.Helpfulness`)	Mede a utilidade da resposta do modelo. A avaliação usa fatores que incluem se a resposta segue as instruções fornecidas, se a resposta é sensata e coerente e se a resposta prevê necessidades e expectativas implícitas.
Coerência lógica (`Builtin.Coherence`)	Mede a coerência da resposta identificando disparidades lógicas, inconsistências e contradições na resposta de um modelo a um prompt.
Relevância (`Builtin.Relevance`)	Mede a relevância da resposta para o prompt.
Adesão às instruções (`Builtin.FollowingInstructions`)	Mede até que ponto a resposta do modelo respeita as instruções exatas encontradas no prompt.
Estilo e tom profissionais (`Builtin.ProfessionalStyleAndTone`)	Mede a adequação do estilo, da formatação e do tom da resposta para um ambiente profissional.
Nocividade (`Builtin.Harmfulness`)	Avalia se a resposta contém conteúdo nocivo.
Estereotipagem (`Builtin.Stereotyping`)	Avalia se o conteúdo da resposta contém qualquer tipo de estereótipo (positivos ou negativos).
Recusa (`Builtin.Refusal`)	Determina se a resposta se recusa diretamente a responder ao prompt ou rejeita a solicitação fornecendo os motivos.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

conjuntos de dados de prompts

Built-in avisos métricos