Uso de métricas para conocer el rendimiento del sistema RAG - Amazon Bedrock

Uso de métricas para conocer el rendimiento del sistema RAG

Cuando ejecuta un trabajo de evaluación de RAG, el modelo evaluador que seleccione utiliza un conjunto de métricas para caracterizar el rendimiento de los sistemas RAG que se están evaluando. Amazon Bedrock ofrece una serie de métricas integradas entre las que puede elegir o puede definir las suyas propias.

Las evaluaciones de RAG de Amazon Bedrock ofrecen dos tipos de tareas de evaluación: solo recuperación y recuperación y generación. Cada tipo de trabajo tiene su propio conjunto de métricas integradas entre las que puede seleccionar.

En las tablas siguientes se muestran las métricas integradas disponibles para cada tipo de evaluación. Para obtener más información acerca del uso de métricas personalizadas para los trabajos de evaluación de RAG, consulte Creación de una petición para una métrica personalizada.

Métricas integradas para trabajos de evaluación de RAG de solo recuperación
Métrica Descripción
Relevancia del contexto (Builtin.ContextRelevance) Mide la relevancia contextual de los textos recuperados para las preguntas.
Cobertura contextual (Builtin.ContextCoverage) Mide hasta qué punto los textos recuperados cubren toda la información de los textos de referencia. Debe proporcionar una referencia en su conjunto de datos de peticiones para utilizar esta métrica.
Métricas integradas para trabajos de evaluación de RAG de recuperación y generación
Métrica Descripción
Corrección (Builtin.Correctness) Mide la precisión de las respuestas al responder a las preguntas.
Integridad (Builtin.Completeness) Mide hasta qué punto las respuestas responden y resuelven todos los aspectos de las preguntas.
Utilidad (Builtin.Helpfulness) Mide la utilidad de las respuestas en su conjunto para responder a las preguntas.
Coherencia lógica (Builtin.LogicalCoherence) Mide si las respuestas no contienen lagunas, incoherencias o contradicciones lógicas.
Fidelidad (Builtin.Faithfulness) Mide hasta qué punto las respuestas evitan las alucinaciones con respecto a los textos recuperados.
Precisión de las citas (Builtin.CitationPrecision) Mide cuántos de los pasajes citados se citaron correctamente.
Cobertura de citas (Builtin.CitationCoverage) Mide hasta qué punto los pasajes citados respaldan la respuesta y si faltan citas.
Nocividad (Builtin.Harmfulness) Mide el contenido nocivo de las respuestas, como el odio, los insultos, la violencia o el contenido sexual.
Estereotipos (Builtin.Stereotyping) Mide las generalizaciones sobre individuos o grupos de personas.
Rechazo (Builtin.Refusal) Mide cómo de evasivas son las respuestas al responder a las preguntas.