Integre la observabilidad en las etapas más tempranas del ciclo de vida del desarrollo (enfoque basado en la opción de cambiar a la izquierda)Establezca una organización y una estructura de equipo eficaces Rastrea la asignación de costos Defina los estándares Establezca procesos de escalamiento Mejore sus habilidades a través de la formación

Etapa 1: Defina su estrella polar

Una implementación exitosa de la observabilidad no se basa solo en las operaciones y las herramientas, sino en fomentar una cultura de propiedad, mejora continua y resolución proactiva de problemas. Como ocurre con cualquier estrategia exitosa, la estrategia de observabilidad requiere una consideración holística de tres pilares: las personas, los procesos y la tecnología.

Cuando desee establecer o mejorar su postura de observabilidad, le recomendamos que comience por definir lo que importa, que se base en los resultados de su empresa y que revise, ajuste y realinee continuamente su estrategia a medida que su empresa, sus equipos y sus productos evolucionan.

En esta primera etapa, usted define y establece su estrella polar, que es una definición consensuada y bien entendida de lo que es bueno para su organización. Le recomendamos que revise algunas o todas las actividades en esta fase a medida que su empresa evolucione, cuando lance un nuevo producto, aplicación o servicio, o cuando diseñe un cambio arquitectónico importante, para volver a evaluar su plataforma de observación y sus necesidades organizativas.

Integre la observabilidad en las etapas más tempranas del ciclo de vida del desarrollo (enfoque basado en la opción de cambiar a la izquierda)

Haga que la observabilidad sea una responsabilidad para todos los miembros de los equipos de ingeniería, operaciones y productos, y trátela como un requisito funcional principal, de forma similar a como se tratan las pruebas unitarias o la seguridad. Esto no transfiere la responsabilidad del equipo de operaciones al equipo de desarrollo, sino que pone de relieve la colaboración necesaria entre los múltiples equipos. Resulta útil que los equipos realicen las siguientes actividades en colaboración al principio del ciclo de vida del desarrollo. Es posible que desees realizarlas por entrada, por función o por producto.

Identifique a las partes interesadas. ¿Quiénes son las partes interesadas y qué es lo que les importa si esta función o producto no funciona según lo esperado? Cuando identifique a las partes interesadas, tenga en cuenta aspectos como la funcionalidad, la disponibilidad, la seguridad, el costo, las ventas y el uso del producto. Las partes interesadas pueden incluir a su equipo, los clientes de su producto, las partes interesadas internas de la empresa, los miembros del equipo de operaciones de la plataforma y los desarrolladores de aplicaciones. Según el escenario, sus equipos de seguridad y finanzas también pueden ser partes interesadas.
Identifique los resultados clave. Determine los resultados clave y su impacto en la empresa y en cada parte interesada. Identifique el éxito y el fracaso de cada resultado y de cada parte interesada. Los resultados suelen definirse como objetivos de nivel de servicio (SLO) y deben ser cuantificables. Un SLO es una medida para cada resultado. Un buen SLO tiene un valor objetivo que debe perseguirse o mantenerse como objetivo. Un SLO puede ser una medida de la satisfacción del usuario. Un indicador de nivel de servicio (SLI) es la medida o las métricas reales que se utilizan para determinar si se está cumpliendo con el SLO: es el dato cuantificable que se mide en función de su objetivo. Algunos ejemplos incluyen reducir el MTTR en un 60 por ciento, mantener la disponibilidad de las aplicaciones en un 99,99 por ciento o mejorar la productividad de los desarrolladores en un 30 por ciento.

Tomemos el ejemplo de mantener la disponibilidad de las aplicaciones en un 99,99 por ciento y definamos el SLO, el SLI y las métricas necesarias para medir y validar el éxito. Para este ejemplo, consideremos una aplicación RESTful y definamos la disponibilidad de la aplicación como la finalización satisfactoria de todas las solicitudes entrantes. Esto requiere medir el número total de solicitudes enviadas a la aplicación y el estado de finalización de cada solicitud. Al traducirlos a SLO y SLI, necesitará una métrica que capture las solicitudes entrantes y otra que capture el estado de las solicitudes. Si todas las solicitudes se completan correctamente, se considera que la solicitud está disponible. Si una o más solicitudes producen errores, se considera que la solicitud no está disponible. Por lo tanto, el SLI sería la suma de las solicitudes completadas por error, dividida por la suma de las solicitudes entrantes en un intervalo de 5 minutos; en efecto, se trata de una tasa de error. Puede añadir un objetivo a este SLI para convertirlo en un SLO; por ejemplo, intente que la tasa de error sea inferior al 0,1 por ciento en 3 intervalos consecutivos de 5 minutos.
Prioriza los resultados clave.En función de la prioridad que establezcas para cada resultado, puedes optar por centrarte primero en los resultados que tienen el mayor impacto, en lugar de hacerlo todo al mismo tiempo. Empieza poco a poco, repite y mejora tu postura de observabilidad en pequeños incrementos. La observabilidad es un proceso que requiere revisiones, auditorías y mejoras continuas para aumentar la madurez y los beneficios. La priorización también puede brindarle la oportunidad de definir hitos incrementales para lograr los resultados identificados.
Identifique la instrumentación requerida. ¿Cuáles son los componentes y las características relacionadas de la arquitectura o la implementación que pueden influir en los resultados más importantes, tal como se identificó en los pasos anteriores? Por ejemplo, cuando ejecutas una aplicación en una instancia de Amazon Elastic Compute Cloud (Amazon EC2), la cantidad de núcleos y la RAM disponible pueden afectar a la capacidad de respuesta y al rendimiento de la aplicación. En esta fase, también puede resultar útil determinar si las herramientas o bibliotecas que utiliza ya incluyen parte de esta instrumentación. Realizar una serie de revisiones preliminares o añadir preguntas como las siguientes a la definición de listo (DoR) de un ticket puede hacer que esta actividad forme parte del proceso estándar.
- Si esta operación fallara, ¿qué necesitaría saber para solucionar el problema? ¿Cómo afecta una operación típica o problemática a los componentes involucrados? ¿Qué tipo de señal debe enviar esta operación: registro, métrica o rastreo? ¿Cuál es el costo de esta instrumentación en comparación con su valor? ¿Qué tipo de agregación sería aceptable sin infringir los SLO?
- ¿Cuáles son los componentes y las dependencias que pueden provocar un error en esta operación? ¿Cómo identificará qué componente o dependencia causó la falla? ¿Cuáles son las diferentes palancas de configuración de estos componentes y dependencias y cómo afecta cada una de ellas a la operación?
- ¿Cuál es la granularidad métrica y la frecuencia de muestreo necesarias para garantizar que el SLI y el SLO se puedan medir con precisión?
Defina los criterios de éxito. Para cada resultado priorizado, defina umbrales que estén alineados con el impacto de cumplir o no los objetivos. Los criterios de éxito proporcionan un contexto adicional a los equipos cuando responden a las alertas. También le permiten pronosticar y hacer concesiones con el coste de la instrumentación para obtener la visibilidad requerida.

Establezca una organización y una estructura de equipo eficaces

En función de la complejidad arquitectónica y el tamaño de su empresa, es posible que necesite configurar un equipo dedicado que se centre en la observabilidad. Este equipo será responsable de configurar las herramientas de observabilidad y configurar la plataforma de observabilidad para los demás equipos. También recomendamos configurar un equipo dedicado si eliges una implementación estándar OpenTelemetry . En las organizaciones más pequeñas, puedes asignar la observabilidad como una responsabilidad adicional a cada miembro del equipo y también nombrar a personas encargadas de promover la observabilidad y hacer cumplir las mejores prácticas en todos los equipos. Estos campeones ofrecen una parte de su jornada como voluntarios para definir los procesos y establecer normas para la organización. Trabajan como un equipo autónomo o pueden estar dirigidos por especialistas especializados en observabilidad. El siguiente diagrama muestra cómo su inversión puede determinar su enfoque organizacional.

Cómo determinar la responsabilidad de la observabilidad en función de las inversiones.

Los campeones podrían integrarse plenamente en los equipos (como se muestra en el caso del equipo 2 en la siguiente ilustración) o formar parte de un equipo habilitador que vaya rotando entre los equipos para establecer y promover las mejores prácticas (el equipo 1 en la ilustración).

Establecer equipos habilitadores o incorporar campeones de observabilidad.

Rastrea la asignación de costos

Las organizaciones deben implementar un seguimiento y una visibilidad integrales de los costos en todas las métricas, registros y rastreos, al tiempo que establecen la responsabilidad específica del equipo por el uso de los recursos y los costos. La integración exitosa de las prácticas de operaciones financieras (FinOps) requiere sistemas de monitoreo automatizados con alertas presupuestarias que se combinen con una retención sistemática de datos y una optimización de la recopilación. Los equipos de ingeniería y finanzas deben alinear sus objetivos mediante paneles compartidos y revisiones periódicas. Las organizaciones se benefician de la implementación de modelos de devolución de cargos claros y estrategias de asignación de costos para impulsar la propiedad y la responsabilidad.

Defina los estándares

Identifique y defina las señales básicas y la telemetría que requiere una aplicación, incluidas las estrategias de alertas y paneles de control. Cree una lista de verificación o un proceso de revisión formal para cada aplicación. El sitio web AWS Observability Best Practices proporciona pautas para la creación de alertas y paneles, como establecer los umbrales de alerta adecuados, minimizar la fatiga de las alertas, crear paneles con suficiente contexto para cada persona, etc. Para obtener experiencias de observabilidad conectadas y seleccionadas, consulte Application Signals en la CloudWatch documentación de Amazon.

Establezca procesos de escalamiento

Es importante establecer y hacer cumplir los mecanismos de escalamiento, la propiedad de las alertas y los procedimientos de respuesta. Le recomendamos que promueva una cultura en la que la escalada no esté mal vista.

Mejore sus habilidades a través de la formación

Identifique la mejor manera de mejorar las habilidades de los miembros actuales y nuevos del equipo, refuerce la importancia de la observabilidad y fomente una cultura de mejora continua. En función de las necesidades de su organización, puede elegir entre una formación pregrabada a pedido o una formación presencial impartida por expertos o especialistas en observabilidad. Su Cuenta de AWS equipo puede impartir sesiones de formación prácticas y exhaustivas, como el taller One Observability, o capacitar y mejorar las habilidades y GameDayslas mejores prácticas de observabilidad. Además, incorpore mecanismos para reforzar las mejores prácticas y promover los estándares definidos por su organización.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Descripción general de

Etapa 2: Implementar la observabilidad