Observabilidad operativa
La observabilidad es necesaria para obtener información útil sobre el rendimiento de los entornos y ayudarle a detectar e investigar los problemas. También tiene un propósito secundario que le permite definir y medir los indicadores clave de rendimiento (KPI) y los objetivos de nivel de servicio (SLO), como el tiempo de actividad. Para la mayoría de las organizaciones, los KPI de operaciones importantes son el tiempo medio de detección (MTTD) y el tiempo medio de recuperación (MTTR) de un incidente.
En toda la observabilidad, el contexto es importante, ya que se recopilan los datos y, a continuación, se recopilan las etiquetas asociadas. Independientemente del servicio, la aplicación o el nivel de aplicación en el que se centre, puede filtrar y analizar ese conjunto de datos específico. Las etiquetas se pueden usar para automatizar la incorporación a Alarmas de CloudWatch, de modo que se pueda avisar a los equipos adecuados cuando se superen determinados umbrales de métricas. Por ejemplo, una clave de etiqueta example-inc:ops:alarm-tag
y el valor podrían indicar la creación de la alarma de CloudWatch. Una solución que lo demuestra se describe en Utilice etiquetas para crear y mantener las alarmas de Amazon CloudWatch para las instancias de Amazon EC2
Configurar demasiadas alarmas puede provocar fácilmente una tormenta de alertas, ya que un gran número de alarmas o notificaciones abruman rápidamente a los operadores y reducen su eficacia general, mientras los operadores clasifican y priorizan manualmente las alarmas individuales. Se puede proporcionar un contexto adicional para las alarmas en forma de etiquetas, lo que significa que las reglas se pueden definir en Amazon EventBridge para garantizar que se centre en el problema inicial y no en las dependencias posteriores.
A menudo se pasa por alto el rol de las operaciones junto con DevOps, pero para muchas organizaciones, los equipos de operaciones centrales siguen siendo la primera respuesta fundamental fuera del horario laboral habitual. (Se pueden encontrar más detalles sobre este modelo en el Documento técnico sobre excelencia operativa). A diferencia del equipo de DevOps, que es el responsable de la carga de trabajo, no suelen tener el mismo nivel de conocimiento, por lo que el contexto que proporcionan las etiquetas en los paneles y las alertas puede llevarlos al manual de procedimientos correcto para cada problema o iniciar un manual de procedimientos automatizado (consulte la publicación del blog Automatizar las alarmas de Amazon CloudWatch con AWS Systems Manager