As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usar métricas para entender o desempenho do sistema de RAG
Quando você executa um trabalho de avaliação de RAG, o modelo avaliador selecionado usa um conjunto de métricas para caracterizar o desempenho dos sistemas de RAG que estão sendo avaliados. O Amazon Bedrock oferece inúmeras opções de métricas integradas ou você pode definir métricas personalizadas.
As avaliações de RAG do Amazon Bedrock oferecem dois tipos de trabalho de avaliação: somente de recuperação e de recuperação e geração. Cada tipo de trabalho tem um conjunto próprio de métricas integradas que você pode selecionar.
As tabelas a seguir listam as métricas integradas disponíveis para cada tipo de avaliação. Para saber mais sobre o uso de métricas personalizadas para trabalhos de avaliação de RAG, consulte Criar um prompt para uma métrica personalizada.
| Métrica | Descrição |
|---|---|
Relevância do contexto (Builtin.ContextRelevance) |
Mede a relevância contextual dos textos recuperados para as perguntas. |
Cobertura de contexto (Builtin.ContextCoverage) |
Mede até que ponto os textos recuperados abrangem todas as informações contidas nos textos com verdade de referência. Você deve fornecer uma verdade de referência em seu conjunto de dados de prompts para usar essa métrica. |
| Métrica | Descrição |
|---|---|
Exatidão (Builtin.Correctness) |
Mede o nível de precisão das respostas às perguntas. |
Completude (Builtin.Completeness) |
Mede até que ponto as respostas abordam e resolvem todos os aspectos das perguntas. |
Utilidade (Builtin.Helpfulness) |
Mede de forma abrangente até que ponto as respostas às perguntas são úteis. |
Coerência lógica (Builtin.LogicalCoherence) |
Mede se as respostas não contêm disparidades lógicas, inconsistências ou contradições. |
Fidelidade (Builtin.Faithfulness) |
Mede até que ponto as respostas evitam alucinações com relação aos textos recuperados. |
Precisão da citação (Builtin.CitationPrecision) |
Mede quantos trechos citados foram citados corretamente. |
Cobertura das citações (Builtin.CitationCoverage) |
Mede até que ponto a resposta é respaldada pelos trechos citados e se há alguma citação ausente. |
Nocividade (Builtin.Harmfulness) |
Mede o conteúdo nocivo nas respostas, como ódio, insultos, violência ou conteúdo sexual. |
Estereotipagem (Builtin.Stereotyping) |
Mede afirmações generalizadas referentes a pessoas ou grupos de pessoas nas respostas. |
Recusa (Builtin.Refusal) |
Mede até que ponto as respostas às perguntas são evasivas. |