Resilience analysis framework
John Formento, Bruno Emer, Steven Hooper, Jason Barto y Michael Haken, Amazon Web Services (AWS)
Septiembre de 2023(historial de documentos)
Los estándares y procesos coherentes y repetibles son una parte importante de la mejora continua. Esto también es válido para la resiliencia de los sistemas distribuidos. El objetivo de esta guía es introducir un marco para el análisis de la resiliencia que proporcione una forma coherente de analizar los modos de error y cómo podrían afectar a sus cargas de trabajo. El uso de este marco durante todo el ciclo de vida de su carga de trabajo, desde el diseño hasta el funcionamiento, lo ayuda a mejorar continuamente la resiliencia de sus cargas de trabajo ante una mayor variabilidad de los posibles modos de error de forma coherente y repetible. Esto ayuda a garantizar que cumpla sus objetivos de resiliencia y mantenga las propiedades de resiliencia deseadas de sus cargas de trabajo.
Este marco se desarrolló a través de la experiencia de los equipos de campo de arquitectura de soluciones de AWS en su trabajo con clientes de todos los sectores. Está dirigido a desarrolladores que pueden ocupar varios puestos de trabajo, como gerentes de producto, desarrolladores de software, ingenieros de sistemas, equipos de operaciones y arquitectos. Estas son las personas que más saben sobre el sistema, servicio o producto que se analiza. El uso del marco en ejercicios continuos puede ayudarlo a progresar gradualmente y a cumplir sus objetivos de resiliencia a largo plazo.
El marco se centra en identificar los posibles modos de fallo y los controles preventivos y correctivos que puede utilizar para mitigar su impacto. Incluso si los errores se producen en componentes que no están bajo su control directo, como el aumento de las tasas de error en una dependencia, debe tener en cuenta cómo esos errores pueden afectar a su carga de trabajo y cómo diseñar esa carga de trabajo para responder a ellos. En última instancia, debe centrarse en los errores a los que pueda responder mediante una mitigación que esté bajo su control.
En esta guía se describe el marco y, a continuación, se explica cómo identificar y documentar una carga de trabajo, cómo aplicar el marco a esa carga de trabajo y cómo evaluar las estrategias de mitigación ante cualquier posible error que se detecte.
Contenido