Revise as métricas das avaliações do RAG que usam LLMs (console) - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Revise as métricas das avaliações do RAG que usam LLMs (console)

É possível analisar as métricas apresentadas em um relatório para um trabalho de avaliação de RAG usando o console do Amazon Bedrock.

As avaliações do RAG que usam Large Language Models (LLMs) computam métricas de avaliação para avaliar o desempenho de quão bem a base de conhecimento do Amazon Bedrock ou a fonte externa do RAG está recuperando informações e gerando respostas.

Em seu boletim de avaliação de RAG, você verá as métricas e os grafos detalhados das métricas relevantes para seu tipo de avaliação, seja somente de recuperação ou de recuperação com geração de resposta. Métricas diferentes são relevantes para diferentes tipos de avaliação. As pontuações computadas para cada métrica são uma pontuação média para textos recuperados ou respostas geradas em todas as consultas do usuário em seu conjunto de dados de prompts. A pontuação computada para cada métrica é um valor entre 0 e 1. Quanto mais próximo de 1, mais a característica dessa métrica aparece nos textos ou respostas recuperados. Os grafos detalhados de cada métrica traçam um histograma e contam quantos textos ou respostas recuperados para as consultas estão dentro de cada intervalo de pontuação.

Por exemplo, você criou um trabalho de avaliação para avaliar a recuperação com geração de resposta. O boletim do console mostra que a pontuação computada de completude nas respostas é 0,82. A pontuação de completude mede como as respostas geradas abordam todos os aspectos das perguntas dos usuários. Ela é calculada como uma pontuação média para as respostas às perguntas em todos os prompts do seu conjunto de dados. O grafo de histograma de completude mostra que a maioria das respostas (barra mais alta) está em um intervalo de pontuação de completude de 0,7 a 0,8. No entanto, a base de conhecimento também obteve alta pontuação em estereotipagem (0,94, em média) nas declarações generalizadas feitas nas respostas. A base de conhecimento pode gerar respostas bastante completas na maioria das vezes, mas essas respostas incluem grande quantidade de declarações generalizadas sobre pessoas ou grupos de pessoas.

Boletim informativo para avaliações do RAG que usam LLMs

Siga as etapas para abrir o boletim no console do Amazon Bedrock para os trabalhos de avaliação do RAG que usam. LLMs Consulte as informações abaixo para cada métrica que seja relevante para os tipos de avaliação somente de recuperação e recuperação com geração de resposta.

  • Faça login Console de gerenciamento da AWS e abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock/.

  • Escolha Avaliações no painel de navegação e selecione Avaliação de bases de conhecimento.

  • Selecione o nome do seu trabalho de avaliação de base de conhecimento. O boletim será aberto, que é a página principal da avaliação de bases de conhecimento.

    nota

    Para abrir o boletim, o status da avaliação de RAG deve ser pronto ou disponível.

Métricas relevantes para avaliações somente de recuperação

Há determinadas métricas relevantes para avaliar a capacidade da base de conhecimento de recuperar informações altamente relevantes.

Relevância do contexto

Essa métrica é relevante para a qualidade das informações recuperadas. A pontuação é uma pontuação média para fragmentos de texto recuperados em todos os prompts em seu conjunto de dados. A relevância do contexto significa que os fragmentos de texto recuperados são contextualmente relevantes para as perguntas. Quanto mais alta a pontuação, mais contextualmente relevantes são as informações, em média. Quanto mais baixa a pontuação, menos contextualmente relevantes são as informações, em média.

Cobertura de contexto (requer verdade de referência)

Essa métrica é relevante para a qualidade das informações recuperadas. A pontuação é uma pontuação média para fragmentos de texto recuperados em todos os prompts em seu conjunto de dados. Cobertura de contexto significa que os fragmentos de texto recuperados abrangem todas as informações fornecidas nos textos de verdade de referência. Quanto mais alta a pontuação, maior a cobertura de contexto, em média. Quanto mais baixa a pontuação, menor a cobertura de contexto, em média.

Métricas relevantes para recuperação com avaliações do tipo geração de resposta

Há determinadas métricas relevantes para avaliar a capacidade da base de conhecimento de gerar respostas úteis e apropriadas baseadas nas informações recuperadas.

Exatidão

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Exatidão significa responder com precisão às perguntas. Quanto mais alta a pontuação, mais coerentes são as respostas geradas, em média. Quanto mais baixa a pontuação, menos corretas são as respostas geradas, em média.

Completeness

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Completude significa responder e resolver todos os aspectos das perguntas. Quanto mais alta a pontuação, mais completas são as respostas geradas, em média. Quanto mais baixa a pontuação, menos completas são as respostas geradas, em média.

Utilidade

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Utilidade significa respostas amplamente úteis às perguntas. Quanto mais alta a pontuação, mais úteis são as respostas geradas, em média. Quanto mais baixa a pontuação, menos úteis são as respostas geradas, em média.

Coerência lógica

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Coerência lógica significa que as respostas não contêm disparidades lógicas, inconsistências ou contradições. Quanto mais alta a pontuação, mais coerentes são as respostas geradas, em média. Quanto mais baixa a pontuação, menos coerentes são as respostas geradas, em média.

Fidelidade

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Fidelidade significa evitar alucinações com relação aos fragmentos de texto recuperados. Quanto mais alta a pontuação, mais fiéis são as respostas geradas, em média. Quanto mais baixa a pontuação, menos fiéis são as respostas geradas, em média.

Precisão da citação

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. A precisão da citação é uma medida do número de trechos citados corretamente. Quanto mais alta a pontuação, mais citações estão corretas nas respostas, em média. Quanto menor a pontuação, menos citações estão corretas, em média.

Se você optar por usar a precisão da citação, também deverá usar a cobertura de citações e vice-versa. A cobertura das citações é parecida com o recall de citações. O uso das duas juntas oferece uma visão completa da qualidade da citação.

Cobertura das citações

Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. A cobertura das citações é semelhante ao recall de citações e é uma medida de quão bem a resposta é respaldada por trechos citados. Quanto mais alta a pontuação, melhor o respaldo das citações às respostas, em média. Quanto mais baixa a pontuação, menor o respaldo das citações às respostas, em média.

Se você optar por usar a cobertura das citações, também deverá usar a precisão das citações e vice-versa. O uso das duas juntas oferece uma visão completa da qualidade da citação.

Nocividade

Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Nocividade significa fazer afirmações abomináveis, desrespeitosas ou violentas. Quanto mais alta a pontuação, mais nocivas são as respostas geradas, em média. Quanto mais baixa a pontuação, menos nocivas são as respostas geradas, em média.

Estereotipagem

Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Estereotipar significa fazer afirmações generalizadas sobre pessoas ou grupos de pessoas. Quanto mais alta a pontuação, maior a estereotipagem nas respostas geradas, em média. Quanto mais baixa a pontuação, menor a estereotipagem nas respostas geradas, em média. Observe que, se houver estereótipos muito aduladores e depreciativos, isso pode gerar uma pontuação alta.

Recusa

Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todos os prompts em seu conjunto de dados. Rejeição significa respostas evasivas às perguntas. Quanto mais alta a pontuação, mais evasivas são as respostas geradas, em média. Quanto mais baixa a pontuação, menos evasivas são as respostas geradas, em média.