Revise las métricas de las evaluaciones de RAG que utilizan LLMs (consola) - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Revise las métricas de las evaluaciones de RAG que utilizan LLMs (consola)

Puede revisar las métricas de un trabajo de evaluación de RAG presentadas en un informe mediante la consola de Amazon Bedrock.

Las evaluaciones de RAG que utilizan modelos de lenguaje grande (LLMs) calculan métricas de evaluación para evaluar el rendimiento de la base de conocimiento de Amazon Bedrock o la fuente RAG externa a la hora de recuperar información y generar respuestas.

En su tarjeta de informe de evaluación de RAG, verá las métricas y los gráficos de desglose de las métricas pertinentes para su tipo de evaluación, tanto de solo recuperación como de recuperación con generación de respuestas. Las diferentes métricas son pertinentes para los diferentes tipos de evaluación. Las puntuaciones calculadas para cada métrica son una puntuación media de los textos recuperados o las respuestas generadas en todas las consultas de los usuarios del conjunto de datos de peticiones. La puntuación calculada para cada métrica es un valor comprendido entre 0 y 1. Cuanto más se acerque a 1, más aparecerá la característica de esa métrica en los textos o respuestas recuperados. Los gráficos de desglose de cada métrica muestran un histograma y cuentan cuántos textos o respuestas recuperados para las consultas o conversaciones se encuentran dentro de cada intervalo de puntuación.

Suponga, por ejemplo, que creó un trabajo de evaluación para evaluar la recuperación con generación de respuestas. La tarjeta de informe de la consola muestra una puntuación calculada de 0,82 para la integridad de las respuestas. La puntuación de integridad mide hasta qué punto las respuestas generadas abordan todos los aspectos de las preguntas de los usuarios. Se calcula como una puntuación media de las respuestas a las preguntas en todas las peticiones del conjunto de datos. El gráfico del histograma de integridad muestra que la mayoría de las respuestas (barra más alta) se encuentran entre un intervalo de puntuación de integridad de 0,7 a 0,8. Sin embargo, la base de conocimiento también obtuvo una puntuación alta en estereotipos, con una media de 0,94, lo que indica que sus respuestas tienden a incluir generalizaciones. La base de conocimiento puede generar respuestas bastante completas la mayoría de las veces, pero esas respuestas incluyen una gran cantidad de generalizaciones sobre personas o grupos de personas.

Boleta de calificaciones para las evaluaciones de RAG que utilizan LLMs

Siga los pasos para abrir la libreta de calificaciones en la consola de Amazon Bedrock para los trabajos de evaluación de RAG que utilice. LLMs Consulte la siguiente información para cada métrica correspondiente para los tipos de evaluación: solo recuperación y recuperación con generación de respuestas.

  • Inicie sesión en la consola Amazon Bedrock Consola de administración de AWS y ábrala en https://console.aws.amazon.com/bedrock/.

  • Elija Evaluaciones en el panel de navegación y, a continuación, elija Evaluación de la base de conocimientos.

  • Seleccione el nombre del trabajo de evaluación de la base de conocimiento. Se le dirigirá a la tarjeta de informe, que es la página principal de la evaluación de la base de conocimiento.

    nota

    Para abrir la tarjeta de informe, el estado de la evaluación de RAG debe ser “listo” o “disponible”.

Métricas relevantes para el tipo de evaluaciones de solo recuperación

Existen ciertas métricas para evaluar la capacidad de su base de conocimiento de recuperar información muy pertinentes.

Relevancia contextual

Esta métrica sirve para medir la calidad de la información recuperada. La puntuación es la puntuación media de los fragmentos de texto recuperados en todas las peticiones del conjunto de datos. La relevancia contextual significa que los fragmentos de texto recuperados son pertinentes desde el punto de vista contextual para las preguntas. Cuanto más alta sea la puntuación, más pertinente será la información de media. Cuanto más baja sea la puntuación, menos pertinente será la información de media.

Cobertura contextual (requiere datos de referencia)

Esta métrica sirve para medir la calidad de la información recuperada. La puntuación es la puntuación media de los fragmentos de texto recuperados en todas las peticiones del conjunto de datos. La cobertura contextual significa que los fragmentos de texto recuperados cubren toda la información proporcionada en los textos de referencia. Cuanto más alta sea la puntuación, mayor será la cobertura contextual de media. Cuanto más baja sea la puntuación, menor será la cobertura contextual de media.

Métricas relevantes para la recuperación con evaluaciones del tipo de generación de respuestas

Existen ciertas métricas relevantes para evaluar la capacidad de su base de conocimiento de generar respuestas útiles y adecuadas en función de la información recuperada.

Corrección

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La corrección significa responder con precisión a las preguntas. Cuanto más alta sea la puntuación, más correctas serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos correctas serán de media las respuestas generadas.

Integridad

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La integridad significa responder y resolver todos los aspectos de las preguntas. Cuanto más alta sea la puntuación, más completas serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos completas serán de media las respuestas generadas.

Utilidad

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La utilidad se refiere a que las respuestas serán útiles de manera integral para las preguntas planteadas. Cuanto más alta sea la puntuación, más útiles serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos útiles serán de media las respuestas generadas.

Coherencia lógica

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La coherencia lógica significa que las respuestas no contienen lagunas, incoherencias o contradicciones lógicas. Cuanto más alta sea la puntuación, más coherentes serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos coherentes serán de media las respuestas generadas.

Fidelidad

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La fidelidad significa evitar las alucinaciones con respecto a los fragmentos de texto recuperados. Cuanto más alta sea la puntuación, más fieles serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos fieles serán de media las respuestas generadas.

Precisión de las citas

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La precisión de las citas es una medida del número de pasajes citados que se citan correctamente. Cuanto más alta sea la puntuación, más citas en las respuesta serán correctas de media. Cuanto más baja sea la puntuación, menos citas serán correctas de media.

Si decide utilizar la precisión de las citas, también debería utilizar la cobertura de las citas, y viceversa. La cobertura de citas equivale aproximadamente a la recuperación de citas. El uso de ambas proporciona una visión completa de la calidad de las citas.

Cobertura de citas

Esta métrica es relevante para la calidad de las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La cobertura de citas equivale aproximadamente a la recuperación de citas, y mide hasta qué punto la respuesta está respaldada por los pasajes citados. Cuanto más alta sea la puntuación, mejor respaldarán las citas las respuestas de media. Cuanto más baja sea la puntuación, peor respaldarán las citas las respuestas de media.

Si decide utilizar la cobertura de las citas, también debería utilizar la precisión de las citas, y viceversa. El uso de ambas proporciona una visión completa de la calidad de las citas.

Nocividad

Esta métrica es relevante para determinar cómo de apropiadas son las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. La nocividad significa hacer afirmaciones de odio, insultantes o violentas. Cuanto más alta sea la puntuación, más nocivas serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos nocivas serán de media las respuestas generadas.

Estereotipos

Esta métrica es relevante para determinar cómo de apropiadas son las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. Los estereotipos son generalizaciones sobre individuos o grupos de personas. Cuanto más alta sea la puntuación, más estereotipos contendrán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos estereotipos contendrán de media las respuestas generadas. Tenga en cuenta que una alta presencia de estereotipos halagadores y despectivos dará como resultado una puntuación alta.

Rechazo

Esta métrica es relevante para determinar cómo de apropiadas son las respuestas generadas. La puntuación es la puntuación media de las respuestas en todas las peticiones del conjunto de datos. El rechazo se refiere a las respuestas evasivas a las preguntas. Cuanto más alta sea la puntuación, más evasivas serán de media las respuestas generadas. Cuanto más baja sea la puntuación, menos evasivas serán de media las respuestas generadas.