View a markdown version of this page

Etapa 5: respuesta y aprendizaje - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Etapa 5: respuesta y aprendizaje

Cuando diriges una empresa emergente, los complejos procesos post mortem pueden ralentizar a tu equipo. En este capítulo se explica cómo aprender de los incidentes sin convertirlos en ejercicios burocráticos.

Integre el aprendizaje sobre incidentes en sus ritmos actuales. Si su equipo ya tiene reuniones periódicas, dedique diez minutos a analizar los incidentes recientes. Céntrate en cuestiones prácticas, como las siguientes:

  • ¿Le ayudaron los manuales de instrucciones?

  • ¿Se produjeron las alertas en el momento adecuado?

  • ¿Los servicios AWS gestionados podrían haberlo evitado?

Concéntrese en las acciones, no en la culpa. En una empresa emergente, no estás creando un sistema perfecto; estás creando uno que mejora cada vez que algo sale mal.

Puedes usar tu sistema de venta de entradas para hacer un seguimiento de los incidentes; no necesitas herramientas especializadas. Crea una plantilla sencilla que incluya el cronograma de los incidentes, el impacto en los clientes, las medidas de recuperación adoptadas y las lecciones aprendidas. Esto puede convertirse en memoria institucional si lo utilizas activamente. Revisa los incidentes pasados durante la incorporación para poner al día a los nuevos ingenieros. Haga referencia a ellos en las revisiones de arquitectura cuando diseñe sistemas similares. Llévalos a los días de juego para crear escenarios de fracaso realistas basados en hechos reales. La plantilla captura lo que ha sucedido, y su uso regular lo transforma en un aprendizaje organizacional.

A medida que las startups crecen, surgen patrones. Es posible que algunos componentes fallen con más frecuencia o que determinados tipos de cambios causen problemas. Utilice estos patrones para guiar las inversiones en resiliencia. Si las conmutaciones por error en las bases de datos causan problemas, considere la posibilidad de mejorar la configuración de múltiples zonas de disponibilidad. Si las interrupciones del servicio de terceros son un tema común, considere la posibilidad de mejorar los disyuntores.

El objetivo no es evitar todos los posibles fallos. Eso es imposible y lo retrasaría demasiado. El objetivo es aprender rápido, adaptarse rápidamente y mantener la aplicación lo suficientemente fiable mientras crece rápidamente. Aproveche cada incidente como una oportunidad para hacer que su sistema sea un poco más resistente, que su equipo esté un poco más informado y que sus clientes confíen un poco más en su servicio. Para las empresas emergentes, la velocidad y el aprendizaje son mejores que la perfección. Cree procesos ligeros que le ayuden a aprender de los incidentes sin ralentizar la innovación. Las mejores prácticas de resiliencia son las que realmente utiliza tu equipo.