View a markdown version of this page

Ampliar la ingeniería del caos en toda su organización - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ampliar la ingeniería del caos en toda su organización

A medida que su organización adopte la ingeniería del caos, estandarizarla e implementarla presentará desafíos. En las primeras etapas de madurez, es probable que los diferentes equipos utilicen diferentes herramientas y variaciones del proceso de ingeniería del caos descrito en las secciones anteriores. Al mismo tiempo, es posible que algunos equipos no prioricen o adopten en absoluto la ingeniería del caos, a pesar de sus posibles beneficios. Las siguientes secciones proporcionan orientación sobre cómo superar estos desafíos.

En general, su enfoque de la ingeniería del caos debe estar diseñado para lograr un equilibrio entre el liderazgo centralizado y la participación descentralizada. Este equilibrio ayuda a garantizar que la ingeniería del caos se integre en el proceso de desarrollo y que los aprendizajes se compartan en toda la organización.

Establecer una práctica de ingeniería del caos

La estandarización de la práctica de la ingeniería del caos puede acelerar su adopción. Compartir los aprendizajes de los experimentos entre los equipos puede aumentar el rendimiento de las inversiones en ingeniería del caos.

Construye un centro de excelencia centralizado o reúne a un grupo de expertos en la materia como parte de tu práctica de ingeniería del caos. Al tratarse de una función pequeña y centralizada, este equipo puede trabajar en los equipos de desarrollo de software, infraestructura, seguridad y negocios, y mantener los estándares que utilizan esos equipos. Para simplificar, el centro de excelencia se denomina equipo de práctica centralizada y, en el resto de esta guía, los grupos que aplican la ingeniería del caos se denominan equipos de práctica.

Función del equipo de práctica centralizada

El equipo de práctica centralizada es responsable de desarrollar e implementar prácticas de ingeniería del caos en toda la organización. Trabajan en estrecha colaboración con los equipos en ejercicio para guiarlos en el diseño y la realización de experimentos y garantizar que los experimentos sean valiosos para la empresa. El equipo de práctica centralizada también proporciona orientación y apoyo a los equipos de desarrollo, infraestructura y seguridad para ayudarlos a integrar la ingeniería del caos en sus procesos de desarrollo.

Las principales responsabilidades de un equipo de práctica de ingeniería del caos centralizado incluyen las siguientes:

  • Capacitación: una función de ingeniería del caos centralizada facilita la introducción de la práctica de la ingeniería del caos a través de jornadas de juego y talleres. Guían a los equipos en el proceso de creación del caos, lo que incluye la selección de escenarios de fallo, la definición de hipótesis y la elaboración de informes para compartirlos con el resto de la organización. El equipo de práctica centralizado debe ser propietario de los materiales de formación y trabajar para mejorar las aptitudes de los equipos de práctica en el uso de la ingeniería del caos.

  • Asesoramiento: el equipo de práctica centralizada también puede actuar como asesor para supervisar los experimentos que llevan a cabo los equipos de práctica. Su experiencia y conocimientos pueden garantizar que los experimentos aporten valor a la empresa y se lleven a cabo de forma segura. Del mismo modo, el equipo puede supervisar la ejecución y el resumen de un experimento para guiar a las personas que se inician en la ingeniería del caos.

  • Marketing y seguimiento del valor: comunicar el valor empresarial de la ingeniería del caos es clave para el éxito de un programa de este tipo. Cada equipo que participe en los experimentos de ingeniería del caos debe recopilar datos de los experimentos realizados en toda la empresa y demostrar el valor de la inversión de la organización en la ingeniería del caos. Esto incluye cuantificar y celebrar el número de incidentes que se evitaron durante cada experimento, el tiempo de inactividad en el que se habría incurrido si el experimento hubiera fracasado y el impacto general en la empresa si los escenarios de fallo se hubieran producido en la producción. Al recopilar y centralizar estos datos de todos los equipos y ponerlos a disposición de toda la organización, el equipo de práctica centralizada puede hacer un seguimiento del valor derivado de la adopción de la ingeniería del caos en toda la organización e influir en él.

  • Normas: el equipo de práctica centralizado debe ser el propietario y el mantenimiento del proceso de realización de experimentos de caos, de las plantillas de planificación y elaboración de informes sobre los experimentos y de las herramientas utilizadas para llevarlos a cabo.

    El equipo central debe poseer y gestionar las plantillas de planificación de experimentos, las plantillas de informes de experimentos, la documentación de los procesos y los materiales de capacitación. La documentación sobre las mejores prácticas y los materiales de capacitación proporcionan orientación a los equipos en prácticas sobre temas como las barandillas que pueden utilizar para limitar el impacto de un experimento, cuándo realizar un experimento en producción y cómo evolucionar su uso de la ingeniería del caos a lo largo del tiempo. Para ver ejemplos de plantillas y resultados, consulte el apéndice.

    El equipo de práctica centralizada también debe ser el propietario del proceso de realización de un experimento, incluidas las comunicaciones y la escalación, y de cuándo y cómo comunicarse con otros equipos de la organización antes o durante el experimento. El proceso también debe indicar cuándo se requieren barandas.

    El equipo de práctica centralizada también debe seleccionar y poseer las herramientas básicas para realizar experimentos de caos (por ejemplo, herramientas como AWS FIS estas). La selección e implementación de herramientas complementarias, como las herramientas de generación de carga, deben ser decididas por los equipos de práctica. Los equipos en prácticas deberían poder adaptar el proceso general y las herramientas para que se adapten mejor a sus necesidades.

El papel de los equipos practicantes

El equipo centralizado es responsable de impulsar la estrategia general de ingeniería del caos, mientras que los equipos que practican participan en el proceso y son los responsables del desarrollo y la ejecución de los experimentos. Esto ayuda a garantizar que los experimentos sean relevantes para cada producto o servicio específico, y que los aprendizajes sean procesables y puedan aplicarse para mejorar la confiabilidad y la resiliencia del producto. El equipo de práctica centralizada actúa como mentor y responsable de los estándares y procesos de ingeniería del caos de la organización. Sin embargo, para evitar que el equipo centralizado se convierta en un obstáculo, los equipos de práctica individuales deberán aprender del consultorio central y realizar por sí mismos experimentos sobre el caos.

Establecer una comunidad de práctica

Además de crear un equipo centralizado, le recomendamos que establezca una comunidad informal de profesionales interesados en la ingeniería del caos. Esta comunidad proporciona una plataforma para compartir conocimientos, mejores prácticas y experiencias entre los equipos en ejercicio y la organización en general.

La comunidad de práctica puede ser gestionada por un equipo centralizado de práctica de ingeniería del caos, pero cualquier persona de la organización puede convertirse en miembro de la comunidad. El equipo centralizado puede aprovechar la comunidad de práctica para difundir actualizaciones y obtener información sobre lo aprendido, así como para recopilar comentarios de los equipos en ejercicio que utilizan los estándares y los procesos gestionados por el equipo centralizado. La comunidad actuará como un circuito de retroalimentación para informar al equipo centralizado sobre la eficacia de las prácticas de ingeniería del caos en todos los equipos en prácticas. Luego, el equipo de práctica centralizada podrá ajustar su documentación y los elementos de apoyo para brindar un mejor apoyo a los equipos de productos.

Incorporar la ingeniería del caos a su resiliencia operativa

Un experimento de caos es una inversión de su empresa para evitar incidentes en la producción. Será necesario determinar dónde la empresa puede obtener el mayor rendimiento de esta inversión. La organización puede trabajar con el equipo de práctica de ingeniería del caos centralizado para actualizar sus estándares y determinar qué productos son lo suficientemente críticos como para requerir la experimentación del caos.

Proceso de desarrollo de sistemas

La ingeniería del caos y los experimentos del caos deben realizarse repetidamente como parte del ciclo de vida de una aplicación. De forma similar a como los equipos realizan habitualmente las pruebas de recuperación ante desastres, deberían llevar a cabo experimentos de caos y jornadas de juego de forma continua y periódica durante todo el año. Este enfoque mejora la forma en que una organización anticipa, observa y responde a los incidentes.