6. Supervisión continua

En la supervisión continua, los procesos automatizados observan y detectan los problemas de rendimiento y los problemas con el modelo. De este modo, los responsables pueden identificar problemas y amenazas posibles en tiempo real para resolverlos de manera rápida.

La supervisión continua revela problemas posibles con el modelo, como la calidad de los datos, el cambio de distribución, el cambio de concepto del modelo y la degradación de la calidad del modelo. La supervisión continua también incluye un registro integral de las medidas tradicionales del sistema, como la saturación, la latencia, el tráfico y los errores. Se estableció una práctica estrategia de notificación y alerta para notificar a los responsables cuando surjan problemas.

6.1 Supervisión de modelos: detección de la calidad de los datos	La supervisión basada en reglas permite saber cuándo se desvían los datos entrantes de los datos de entrenamiento del modelo. Este tipo de supervisión crea un esquema a partir de los datos de entrenamiento, establece restricciones según ese esquema y, a continuación, ejecuta excepciones cuando se produce una infracción.
6.2 Supervisión de modelos: cambio de distribución	La supervisión está configurada para observar la distribución de los datos entrantes y verificar que no se desvió de la distribución de los datos de entrenamiento del modelo. Por ejemplo, los datos entrantes se muestrean como una ventana móvil que se aplica a los datos de inferencia. A continuación, se ejecuta un trabajo para probar la distribución muestreada y la distribución de entrenamiento para comprobar si son iguales.
6.3 Supervisión del modelo: deriva conceptual del modelo	Una verificación de la deriva conceptual busca que la relación entre las entradas de un modelo y la variable de destino permanezca inalterada con respecto a los datos de entrenamiento. Una verificación adicional consiste en confirmar que las características relativas y su importancia no cambian.
6.4 Supervisión del modelo: verificación de la evaluación del modelo	Se trata de una verificación del seguimiento que evalúa si la calidad del modelo se degradó. La verificación de evaluación del modelo compara las métricas de evaluación de referencia del tiempo de entrenamiento con los resultados entrantes para evaluar si el nivel de precisión del modelo disminuyó con los datos nuevos. Como calcula las métricas de precisión, para esta verificación es necesario disponer de la verdad fundamental (o ground truth) de los datos nuevos tras la inferencia.
6.5 Capturas del sistema: esquemas de entrada	El sistema de ML captura el esquema de los datos de entrenamiento, pruebas y validación. Además de proporcionar información sobre las entradas, los esquemas proporcionan estadísticas sobre su sesgo e integridad. Los esquemas se utilizan para hacer pruebas inmediatas y verificar la calidad de los datos en la producción.
6.6 Capturas del sistema: resultados de la evaluación y estadísticas	El sistema de ML genera información precisa sobre los datos de validación y entrenamiento. Puede generar las predicciones y las etiquetas reales de las ejecuciones de validación y entrenamiento. Se utilizan como restricciones de supervisión para el modelo de producción en tiempo real.
6.7 Capturas del sistema: anomalías	Existe un mecanismo de seguimiento para detectar las anomalías en los flujos de datos entrantes. Si se producen valores atípicos en los datos entrantes o si durante un periodo específico cambia la distribución de las características clave, el sistema reconoce que se trata de una anomalía y la marca.
6.8 Registro: saturación y recursos	Existe un registro que indica el nivel de ocupación del sistema. Las métricas de recursos y saturación deben centrarse en el uso de la CPU, el uso de la unidad de procesamiento gráfico (GPU), el uso de la memoria y el uso del disco. Estas métricas deben estar disponibles en formato de series temporales y poder medirse en percentiles. En el caso de los trabajos por lotes, esto proporciona información sobre el rendimiento, que muestra cuántas unidades de información puede procesar el sistema en cada periodo.
6.9 Registro: latencia	Se debe implementar un registro para medir el retraso en la comunicación de red o el tiempo que tarda en atenderse una solicitud. Un ingeniero debe poder evaluar cuánto tiempo tardan los modelos de inferencia en generar predicciones y cuánto tiempo tarda en cargarse el modelo.
6.10 Registro tráfico	La configuración de registro del tráfico mide el volumen de tráfico en cada instancia. El tráfico se mide por la cantidad de solicitudes HTTP y de bytes o paquetes enviados o recibidos durante un periodo determinado. El registro del tráfico proporciona información sobre la carga de trabajo total que se deposita en un sistema.
6.11 Registro: errores	La configuración de registro de errores captura el número de solicitudes que presentan errores. Los errores son de los tipos siguientes: Explícitos (por ejemplo, errores HTTP 500) Implícito (por ejemplo, una respuesta correcta de HTTP 200 acompañada de un contenido incorrecto) Política (por ejemplo, si te comprometes a un tiempo de respuesta de un segundo, solicitudes superiores a un segundo será un error) Si los códigos de respuesta del protocolo no son suficientes para expresar todas las condiciones de error, es posible que se necesiten protocolos secundarios (internos) para seguir los modos de error parcial.
6.12 Notificaciones y alertas	Las notificaciones y alertas se configuran a partir de la supervisión. Entre las notificaciones se incluye poder recibir mensajes de Slack, notificaciones por correo electrónico, páginas y mensajes SMS (servicio de mensajes cortos). Alertar no significa enviar notificaciones sobre todas las infracciones posibles. En cambio, significa configurar alertas para excepciones específicas que sean significativas e importantes para el equipo de desarrollo. De esta manera, se evita la fatiga por alertas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

5. Integración continua

7. Implementación continua