Mejora continua - Recomendaciones de AWS

Mejora continua

La resiliencia es un proceso continuo. A lo largo del ciclo de vida del sistema, el entorno en el que funciona cambiará. Para garantizar que el sistema siga siendo resiliente, debe integrar el marco en las revisiones operativas y de arquitectura periódicas. Es posible que encuentre nuevos modos de error que no identificó la primera vez, o que pueda implementar medidas de mitigación nuevas o imprevistas. El análisis de la resiliencia debe ser un proceso iterativo y no un ejercicio único.

Debería probar las estrategias de mitigación de forma empírica con procesos como la ingeniería del caos o los días de juego para comprobar que funcionan según lo previsto. Si no dispone de un mecanismo de pruebas riguroso, no tendrá la certeza de que la mitigación funcione según lo previsto cuando la necesite. Durante el análisis de resiliencia, puede determinar que un modo de error ya está controlado con una mitigación específica, pero también es importante que ponga a prueba esas suposiciones. Debe probar tanto las mitigaciones actuales como las nuevas que se crearon mediante el marco de análisis de resiliencia.

También debe evaluar qué tan bien llevó a cabo el análisis mediante retrospectivas en equipo. ¿Sabían todos en qué trabajaban durante el análisis? ¿La cantidad de modos de error que encontró mediante los análisis de resiliencia se ajustó a las expectativas del equipo? ¿Podría identificar las mitigaciones de todos los modos de error que detectó? ¿El equipo consideró útil el proceso? ¿Cree que mejorará la resiliencia de la carga de trabajo?

Cuando se produzcan eventos de error reales que afecten a la disponibilidad de la carga de trabajo, registre el modo de error específico, los componentes que formaron parte del error y el patrón de mitigación que se utilizó. Haga que estos metadatos se puedan buscar en la herramienta de análisis posterior a incidentes para poder determinar en qué componentes y modos de error centrarse en el futuro. A lo largo de este proceso, puede interactuar con el equipo de cuentas de AWS y con los arquitectos de soluciones.