View a markdown version of this page

Apéndice A ‒ Tipos de objetivos para la ingeniería del caos - AWS Orientación prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apéndice A ‒ Tipos de objetivos para la ingeniería del caos

Las siguientes descripciones de los tipos de objetivos incluyen ejemplos reales de cómo Amazon y otras organizaciones han diseñado objetivos para la ingeniería del caos.

Objetivos de arquitectura resiliente

Uno de los factores iniciales para adoptar la ingeniería del caos es identificar y reducir los puntos únicos de falla (SPOF) en los sistemas y la infraestructura. Los objetivos se establecen para validar la resiliencia de los sistemas y arquitecturas críticos, especialmente en el caso de los nuevos servicios o aplicaciones.

Los objetivos de una arquitectura resiliente implican realizar experimentos caóticos que simulen fallos en las dependencias de los servicios. Los experimentos confirman si los tiempos de espera, los reintentos, el comportamiento del almacenamiento en caché y las configuraciones de los disyuntores funcionan correctamente. Estos experimentos ayudan a descubrir problemas que deben solucionarse y evitar que los incidentes afecten a los clientes. Para ver un ejemplo, consulte Cómo crear servicios resilientes en Prime Video con la ingeniería del caos.

Objetivos de recuperación del servicio

Los objetivos de recuperación del servicio se centran en mejorar la capacidad de recuperación ante las interrupciones operativas o los fallos de la infraestructura. Por ejemplo, su organización podría aspirar a alcanzar un objetivo de tiempo de recuperación (RTO) específico para sus servicios principales en caso de que se produzca una interrupción. Los equipos pueden diseñar experimentos de caos para validar y optimizar las estrategias de evacuación, los mecanismos de conmutación por error y los procesos de recuperación automatizados. En última instancia, las optimizaciones reducen el tiempo necesario para la restauración del servicio. Para ver un ejemplo, consulte AWS Lambda: Resiliencia under-the-hood.

Objetivos de experiencia de usuario

Mantener una experiencia de usuario coherente y fiable es fundamental, especialmente durante los períodos de alto tráfico o los eventos críticos. En esos casos, establezca metas centradas en el cumplimiento de objetivos específicos de nivel de servicio (). SLOs Este enfoque centrado en el cliente garantiza que los esfuerzos de resiliencia estén directamente alineados con la prestación de una experiencia de usuario superior, incluso ante fallos o condiciones degradantes. Para ver un ejemplo, consulte Resiliencia en ingeniería: lecciones del viaje de Amazon Search a la ingeniería del caos.

Objetivos basados en métricas

Puede establecer objetivos en función de métricas cuantitativas, como una puntuación de resiliencia que se calcula mediante la concesión de puntos a los servicios que adoptan las mejores prácticas de resiliencia comprobadas. A continuación, puede utilizar determinados experimentos de caos para determinar la puntuación de resiliencia. Esta puntuación puede servir como medida para que los equipos hagan un seguimiento de sus avances en la mitigación de los riesgos de disponibilidad conocidos y en la implementación de las medidas de resiliencia recomendadas. Sin embargo, es fundamental interpretar estas puntuaciones con cautela y evitar hacer demasiado hincapié en una sola métrica en detrimento de objetivos de resiliencia más amplios. Para ver un ejemplo, consulte Comprender las puntuaciones de resiliencia.

Objetivos de cumplimiento normativo

El sector de los servicios financieros se ha convertido en uno de los primeros en adoptar la ingeniería del caos, impulsada principalmente por los estrictos requisitos reglamentarios que exigen sólidas capacidades de resiliencia. La normativa exigirá que las instituciones financieras identifiquen, prueben y corrijan de forma proactiva las vulnerabilidades de sus sistemas y procesos críticos. Entre estas normas se incluyen las siguientes:

  • El documento interinstitucional sobre prácticas sólidas para fortalecer la resiliencia operativa publicado por las agencias federales de EE. UU.

  • Las directrices del Banco Central Europeo sobre la resiliencia operativa

  • La propuesta de la Comisión Europea para una Ley de Resiliencia Operativa Digital (DORA)

Si su organización es una institución financiera, cumpla con estas normas estableciendo objetivos explícitos para demostrar la resiliencia operativa mediante estrategias integrales de pruebas y validación. Para ver un ejemplo, consulte El Grupo de la Bolsa de Valores de Londres utiliza la ingeniería del caos AWS para mejorar la resiliencia.