Etapa 4: funcionamiento

Creó una aplicación resiliente y la probó. Ahora, la realidad diaria es mantenerla en funcionamiento. Pero en una empresa emergente, no puedes ver todas las operaciones y no deberías intentarlo. La clave es estar alerta a lo que importa sin proporcionar demasiadas métricas ni sobrecargar a tu equipo.

Comience con la perspectiva del cliente. CloudWatchLos canarios de Amazon Synthetics actúan como clientes automatizados. Ponen a prueba continuamente los recorridos críticos de los usuarios. Haga que inicien sesión, simule compras con cuentas de prueba o acceda a funciones clave, especialmente durante las horas de mayor actividad. Esto le ayuda a comprender la experiencia del cliente y a detectar los problemas antes que los usuarios reales. Cuando un canario falla, usted sabe inmediatamente que algo anda mal desde la perspectiva del cliente.

Aproveche esta base con un monitoreo centrado de la infraestructura de soporte. ¿Qué señales te indican que hay problemas? Amazon te CloudWatch ayuda a crear paneles de control que rastrean estas señales. No se limite a monitorizar las métricas técnicas, sino que las vincule al impacto empresarial. Por ejemplo, el uso elevado de la CPU es importante, pero eso se debe a que podría degradar la experiencia del cliente que estás rastreando con Canaries.

Como enfoque práctico, adapta tu supervisión a los recorridos de tus clientes. Si utilizas una plataforma de software como servicio (SaaS), es probable que te interesen los tiempos de respuesta de las API, las tasas de éxito de la autenticación y la disponibilidad de las funciones principales. Configura alertas que te avisen cuando estas métricas cambien. Sin embargo, sé selectivo. Cada alerta debe exigir la adopción de medidas. Si tu equipo empieza a ignorar las alertas porque «probablemente no sea nada», es porque has establecido demasiadas o estás haciendo un seguimiento de las métricas incorrectas.

Distribuye estas alertas a través de herramientas que tu equipo ya utiliza. Si sus ingenieros viven en una aplicación de mensajería en particular, envíe alertas a esa aplicación. El objetivo es detectar rápidamente la información sin crear un proceso nuevo. Cuando se activa una alerta, tu equipo debe saber exactamente qué significa y qué hacer al respecto.

Mantenga su documentación operativa sencilla y práctica. Guarde los runbooks con su código en el control de versiones, pero recuerde que no son novelas. Cuando algo se estropea, tu equipo necesita medidas claras y prácticas. Cada alerta debe estar vinculada al manual correspondiente y cada manual debe responder a tres preguntas:

¿Qué se rompió?
¿Por qué importa?
¿Cómo lo soluciono?

Implemente un proceso sencillo de gestión de incidentes. No necesita marcos complejos, solo definiciones claras de lo que constituye un incidente y a quién llamar cuando las cosas se agravan. Guarde los registros de incidentes porque le ayudan a mejorar la resiliencia de su aplicación.

La clave es encontrar el punto óptimo entre la vigilancia y los gastos generales. Usa AWS herramientas para automatizar todo lo que puedas, céntrate en monitorear las métricas que afectan a los clientes y mantén tus procesos lo suficientemente ligeros como para que evolucionen a medida que creces.

El siguiente capítulo explora cómo fomentar una mentalidad de resiliencia sin sacrificar la velocidad y la innovación que hacen que las startups sean especiales. Al final del día, la resiliencia tiene que ver tanto con las personas como con la tecnología.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Etapa 3: evaluación y pruebas

Etapa 5: respuesta y aprendizaje