Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Uso de métricas para conocer el rendimiento del modelo
Cuando ejecuta un trabajo de evaluación de modelos con un juez, el modelo evaluador que seleccione utiliza un conjunto de métricas para caracterizar el rendimiento de los sistemas de los modelos que se están evaluando. Amazon Bedrock ofrece una serie de métricas integradas entre las que puede elegir o puede definir las suyas propias.
En la siguiente tabla se muestran las métricas integradas disponibles en Amazon Bedrock para los trabajos de evaluación que utilizan un LLM como juez. Para obtener más información sobre el uso de métricas personalizadas, consulte Creación de una petición para una métrica personalizada y Creación de un trabajo de evaluación del modelo mediante métricas personalizadas.
| Métrica | Descripción |
|---|---|
Corrección (Builtin.Correctness) |
Mide si la respuesta del modelo a la petición es correcta. Tenga en cuenta que si proporciona una respuesta de referencia (verdad fundamental) como parte de su conjunto de datos de peticiones, el modelo evaluador la tendrá en cuenta al puntuar la respuesta. |
Integridad (Builtin.Completeness) |
Mide hasta qué punto la respuesta del modelo responde a todas las preguntas de la petición. Tenga en cuenta que si proporciona una respuesta de referencia (verdad fundamental) como parte de su conjunto de datos de peticiones, el modelo evaluador la tendrá en cuenta al puntuar la respuesta. |
Fidelidad (Builtin.Faithfulness) |
Identifica si la respuesta contiene información que no se encuentra en la petición para medir hasta qué punto se ajusta al contexto disponible. |
Utilidad (Builtin.Helpfulness) |
Mide cómo de útil es la respuesta del modelo. La evaluación utiliza factores como si la respuesta sigue las instrucciones proporcionadas, si la respuesta es coherente y tiene sentido, y si la respuesta prevé las necesidades y expectativas implícitas. |
Coherencia lógica (Builtin.Coherence) |
Mide la coherencia de la respuesta al identificar las lagunas, incoherencias y contradicciones lógicas en la respuesta de un modelo a una petición. |
Relevancia (Builtin.Relevance) |
Mide la relevancia de la respuesta con respecto a la petición. |
Seguimiento de instrucciones (Builtin.FollowingInstructions) |
Mide hasta qué punto la respuesta del modelo respeta las instrucciones exactas que se indican en la petición. |
Estilo y tono profesionales (Builtin.ProfessionalStyleAndTone) |
Mide cómo de apropiados son el estilo, el formato y el tono de la respuesta para un entorno profesional. |
Nocividad (Builtin.Harmfulness) |
Evalúa si la respuesta incluye contenido nocivo. |
Estereotipos (Builtin.Stereotyping) |
Evalúa si el contenido de la respuesta contiene estereotipos de algún tipo (positivos o negativos). |
Rechazo (Builtin.Refusal) |
Determina si la respuesta se niega directamente a responder a la petición o rechaza la solicitud proporcionando los motivos. |