View a markdown version of this page

Annexe A ‒ Types d'objectifs pour l'ingénierie du chaos - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Annexe A ‒ Types d'objectifs pour l'ingénierie du chaos

Les descriptions suivantes des types d'objectifs incluent des exemples concrets de la manière dont Amazon et d'autres organisations ont conçu des objectifs pour l'ingénierie du chaos.

Objectifs d'architecture résiliente

L'un des premiers moteurs de l'adoption de l'ingénierie du chaos est d'identifier et de réduire les points de défaillance uniques (SPOF) dans les systèmes et les infrastructures. Les objectifs sont fixés pour valider la résilience des systèmes et architectures critiques, en particulier pour les nouveaux services ou applications.

Les objectifs d'une architecture résiliente impliquent de mener des expériences de chaos simulant des défaillances dans les dépendances des services. Les expériences confirment si les délais d'attente, les nouvelles tentatives, le comportement de mise en cache et les configurations des disjoncteurs fonctionnent correctement. Ces expériences permettent de découvrir les problèmes à résoudre, évitant ainsi les incidents ayant une incidence sur le client. Par exemple, voir Création de services résilients chez Prime Video grâce à l'ingénierie du chaos.

Objectifs de restauration des services

Les objectifs de reprise des services visent à améliorer la capacité de reprise après une interruption des opérations ou une défaillance de l'infrastructure. Par exemple, votre organisation peut viser à atteindre un objectif de temps de reprise (RTO) spécifique pour vos services principaux en cas de panne. Les équipes peuvent concevoir des expériences de chaos pour valider et optimiser les stratégies d'évacuation, les mécanismes de basculement et les processus de reprise automatisés. Les optimisations réduisent en fin de compte le temps nécessaire à la restauration du service. Pour un exemple, voir AWS Lambda: Résilience under-the-hood.

Objectifs en matière d'expérience utilisateur

Le maintien d'une expérience utilisateur cohérente et fiable est essentiel, en particulier pendant les périodes de forte fréquentation ou d'événements critiques. Dans de tels cas, fixez des objectifs centrés sur la réalisation d'objectifs de niveau de service spécifiques ()SLOs. Cette approche centrée sur le client garantit que les efforts de résilience sont directement liés à la fourniture d'une expérience utilisateur supérieure, même en cas de panne ou de détérioration des conditions. Par exemple, consultez Engineering Resilience : Lessons from Amazon Search's Chaos Engineering Journey.

Objectifs basés sur des métriques

Vous pouvez définir des objectifs basés sur des indicateurs quantitatifs, tels qu'un score de résilience calculé en attribuant des points aux services qui adoptent les meilleures pratiques éprouvées en matière de résilience. Vous pouvez ensuite utiliser des expériences de chaos particulières pour déterminer le score de résilience. Ce score peut servir de mesure aux équipes pour suivre leurs progrès en matière d'atténuation des risques de disponibilité connus et de mise en œuvre des mesures de résilience recommandées. Cependant, il est essentiel d'interpréter ces scores avec prudence et d'éviter de trop mettre l'accent sur un seul indicateur au détriment d'objectifs de résilience plus larges. Pour un exemple, voir Comprendre les scores de résilience.

Objectifs de conformité réglementaire

Le secteur des services financiers est devenu un acteur de premier plan dans l'adoption de l'ingénierie du chaos, principalement en raison d'exigences réglementaires strictes qui exigent de solides capacités de résilience. Les réglementations exigeront que les institutions financières identifient, testent et corrigent de manière proactive les vulnérabilités de leurs systèmes et processus critiques. Ces réglementations sont notamment les suivantes :

  • Le document interinstitutions sur les bonnes pratiques pour renforcer la résilience opérationnelle publié par les agences fédérales américaines

  • Les lignes directrices de la Banque centrale européenne en matière de résilience opérationnelle

  • La proposition de la Commission européenne pour une loi sur la résilience opérationnelle numérique (DORA)

Si votre organisation est une institution financière, respectez ces réglementations en fixant des objectifs explicites pour démontrer la résilience opérationnelle grâce à des stratégies complètes de test et de validation. Par exemple, voir London Stock Exchange Group utilise l'ingénierie du chaos AWS pour améliorer la résilience.