Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Interpretación de los resultados
Analice las métricas de evaluación a partir de la comparación de los modelos de clasificación de texto para tomar decisiones basadas en datos para implementar en producción.
Comprensión de las métricas de evaluación
La evaluación proporciona varias métricas clave para cada modelo en todos los conjuntos de datos:
Exactitud
Mide el porcentaje de predicciones correctas y funciona mejor con los conjuntos de datos equilibrados. Sin embargo, con los datos desequilibrados, puede ser engañosa y puede arrojar resultados artificialmente altos cuando domina una clase.
Precisión
Evalúa en qué medida el modelo evita los falsos positivos al medir qué porcentaje de predicciones positivas era correcta. Esta métrica oscila entre el 0,0 y el 1,0 (cuanto más alto, mejor) y se vuelve esencial cuando los falsos positivos son caros.
Exhaustividad
Evalúa si el modelo detecta correctamente todos los casos positivos al medir el porcentaje de positivos reales encontrados. Oscila entre el 0,0 y el 1,0 (cuanto más alto, mejor) y se vuelve esencial cuando la falta de positivos resulta caro.
Puntuación F1
Proporciona la media armónica entre precisión y exhaustividad. Además, equilibra ambas métricas en una única puntuación que va de 0,0 a 1,0 (cuanto más alto, mejor).
Coeficiente de correlación de Matthews (MCC)
Mide la calidad general de la clasificación binaria y es la mejor métrica para los datos desequilibrados. Oscila entre el -1,0 y el 1,0, donde los valores más altos indican un mejor rendimiento y 0 representa una suposición aleatoria.
Característica de funcionamiento del receptor Área bajo la curva
Evalúa en qué medida el modelo distingue correctamente entre las clases. Va desde el 0,0 al 1,0, donde 1,0 representa una clasificación perfecta y 0,5 una suposición aleatoria.
Tiempo medio de inferencia
Mide la velocidad de predicción, que es esencial para las aplicaciones en tiempo real. Tenga en cuenta tanto la velocidad como la coherencia al evaluar esta métrica.
nota
No confíe únicamente en la precisión a la hora de seleccionar el modelo. En el caso de los conjuntos de datos desequilibrados, la precisión, la exhaustividad y el MCC proporcionan indicadores más fiables del rendimiento en el mundo real.
Comparación del rendimiento entre tipos de conjuntos de datos
El conjunto de datos equilibrado muestra el rendimiento de los modelos en condiciones ideales con una representación equitativa de ejemplos positivos y negativos. Un buen rendimiento indica que el modelo ha aprendido los patrones esenciales de clasificación de texto.
El conjunto de datos sesgado revela cómo gestionan los modelos el desequilibrio de clases en el mundo real, algo común en situaciones de producción.
El conjunto de datos complejo pone a prueba la solidez del modelo en casos ambiguos o extremos que puedan aparecer en la fase de producción.
Selección de modelo
Utilice este enfoque sistemático para seleccionar el modelo óptimo para su caso de uso específico.
Definición de las prioridades empresariales
Antes de elegir un modelo, debe determinar qué factores de rendimiento son más importantes para su caso de uso.
Identifique sus requisitos de precisión y el umbral de rendimiento mínimo aceptable.
Determine las limitaciones de latencia, incluso si necesita un procesamiento en tiempo real (<100 ms) o por lotes.
Establezca sus consideraciones de costos y su presupuesto para la inferencia y el escalado.
Analice las características de los datos para saber si los datos de producción son equilibrados, sesgados o muy variables.
Cuándo elegir cada modelo
Elija el modelo que mejor se adapte a su caso de uso en función de los resultados de su evaluación.
Elija DistilBERT cuando necesite inferencias más rápidas y precisas, como el análisis de opiniones en tiempo real en los chatbots del servicio de atención al cliente, los sistemas de moderación de contenido o las aplicaciones en las que es fundamental que el tiempo de respuesta sea inferior a 100 ms.
Elija BERT cuando disponer de la máxima precisión sea más importante que la velocidad, como en el caso de la clasificación de documentos legales, el análisis de textos médicos o las aplicaciones de conformidad en las que la precisión es primordial y el procesamiento por lotes es aceptable.
Priorización de los conjuntos de datos de evaluación
Céntrese en los conjuntos de datos que mejor representen su caso de uso en el mundo real.
Dé más peso al conjunto de datos que más se parezca a los datos del mundo real.
Tenga en cuenta la importancia de los casos extremos en su aplicación y priorice el rendimiento desafiante de los conjuntos de datos en consecuencia.
Equilibre la optimización en varios escenarios en lugar de centrarse en un solo tipo de conjunto de datos.
Compare los resultados de su evaluación con estas prioridades para seleccionar el modelo que mejor equilibre sus requisitos de precisión, velocidad y costo.
Después de seleccionar su modelo preferido, está listo para la implementación en producción. Siga en Implementación del modelo a escala.