Mejora continua
La resiliencia es un proceso continuo
Debería probar las estrategias de mitigación de forma empírica con procesos como la ingeniería del caos
También debe evaluar qué tan bien llevó a cabo el análisis mediante retrospectivas en equipo. ¿Sabían todos en qué trabajaban durante el análisis? ¿La cantidad de modos de error que encontró mediante los análisis de resiliencia se ajustó a las expectativas del equipo? ¿Podría identificar las mitigaciones de todos los modos de error que detectó? ¿El equipo consideró útil el proceso? ¿Cree que mejorará la resiliencia de la carga de trabajo?
Cuando se produzcan eventos de error reales que afecten a la disponibilidad de la carga de trabajo, registre el modo de error específico, los componentes que formaron parte del error y el patrón de mitigación que se utilizó. Haga que estos metadatos se puedan buscar en la herramienta de análisis posterior a incidentes para poder determinar en qué componentes y modos de error centrarse en el futuro. A lo largo de este proceso, puede interactuar con el equipo de cuentas de AWS y con los arquitectos de soluciones.