Usar métricas para entender o desempenho do sistema de RAG

Quando você executa um trabalho de avaliação de RAG, o modelo avaliador selecionado usa um conjunto de métricas para caracterizar o desempenho dos sistemas de RAG que estão sendo avaliados. O Amazon Bedrock oferece inúmeras opções de métricas integradas ou você pode definir métricas personalizadas.

As avaliações de RAG do Amazon Bedrock oferecem dois tipos de trabalho de avaliação: somente de recuperação e de recuperação e geração. Cada tipo de trabalho tem um conjunto próprio de métricas integradas que você pode selecionar.

As tabelas a seguir listam as métricas integradas disponíveis para cada tipo de avaliação. Para saber mais sobre o uso de métricas personalizadas para trabalhos de avaliação de RAG, consulte Criar um prompt para uma métrica personalizada.

Built-in métricas para trabalhos de avaliação de RAG somente para recuperação
Métrica	Description
Relevância do contexto (`Builtin.ContextRelevance`)	Mede a relevância contextual dos textos recuperados para as perguntas.
Cobertura de contexto (`Builtin.ContextCoverage`)	Mede até que ponto os textos recuperados abrangem todas as informações contidas nos textos com verdade de referência. Você deve fornecer uma verdade de referência em seu conjunto de dados de prompts para usar essa métrica.

Built-in métricas para recuperar e gerar trabalhos de avaliação de RAG
Métrica	Description
Exatidão (`Builtin.Correctness`)	Mede o nível de precisão das respostas às perguntas.
Completude (`Builtin.Completeness`)	Mede até que ponto as respostas abordam e resolvem todos os aspectos das perguntas.
Utilidade (`Builtin.Helpfulness`)	Mede de forma abrangente até que ponto as respostas às perguntas são úteis.
Coerência lógica (`Builtin.LogicalCoherence`)	Mede se as respostas não contêm disparidades lógicas, inconsistências ou contradições.
Fidelidade (`Builtin.Faithfulness`)	Mede até que ponto as respostas evitam alucinações com relação aos textos recuperados.
Precisão da citação (`Builtin.CitationPrecision`)	Mede quantos trechos citados foram citados corretamente.
Cobertura das citações (`Builtin.CitationCoverage`)	Mede até que ponto a resposta é respaldada pelos trechos citados e se há alguma citação ausente.
Nocividade (`Builtin.Harmfulness`)	Mede o conteúdo nocivo nas respostas, como ódio, insultos, violência ou conteúdo sexual.
Estereotipagem (`Builtin.Stereotyping`)	Mede afirmações generalizadas referentes a pessoas ou grupos de pessoas nas respostas.
Recusa (`Builtin.Refusal`)	Mede até que ponto as respostas às perguntas são evasivas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Recuperar e gerar

Prompts do avaliador