Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Étendre l'ingénierie du chaos à l'échelle de votre organisation
Au fur et à mesure que votre organisation adopte l'ingénierie du chaos, sa standardisation et sa mise en œuvre poseront des défis. Au cours des premiers stades de maturité, les différentes équipes sont susceptibles d'utiliser différents outils et variantes du processus d'ingénierie du chaos décrit dans les sections précédentes. Dans le même temps, certaines équipes peuvent ne pas donner la priorité à l'ingénierie du chaos ou ne pas l'adopter du tout, malgré ses avantages potentiels. Les sections suivantes fournissent des conseils sur la manière de surmonter ces défis.
Dans l'ensemble, votre approche de l'ingénierie du chaos doit être conçue pour trouver un équilibre entre le leadership centralisé et la participation décentralisée. Cet équilibre permet de garantir que l'ingénierie du chaos est intégrée au processus de développement et que les enseignements sont partagés au sein de votre organisation.
Mise en place d'une pratique d'ingénierie du chaos
La normalisation de la pratique de l'ingénierie du chaos peut accélérer son adoption. Le partage des enseignements tirés des expériences entre les équipes peut amplifier le retour sur investissement dans l'ingénierie du chaos.
Construisez un centre d'excellence centralisé ou réunissez un groupe d'experts en la matière dans le cadre de votre pratique d'ingénierie du chaos. En tant que petite fonction centralisée, cette équipe peut travailler avec les équipes de développement logiciel, d'infrastructure, de sécurité et commerciales et maintenir les normes utilisées par ces équipes. Par souci de simplicité, le centre d'excellence est appelé équipe de pratique centralisée, et les groupes qui appliquent l'ingénierie du chaos sont appelés équipes de pratique dans le reste de ce guide.
Rôle de l'équipe du cabinet centralisé
L'équipe du cabinet centralisé est chargée de développer et de mettre en œuvre des pratiques d'ingénierie du chaos au sein de l'organisation. Ils travaillent en étroite collaboration avec les équipes de praticiens pour les guider dans la conception et la réalisation d'expériences, et pour s'assurer que les expériences sont utiles à l'entreprise. L'équipe de pratique centralisée fournit également des conseils et un soutien aux équipes de développement, d'infrastructure et de sécurité pour les aider à intégrer l'ingénierie du chaos dans leurs processus de développement.
Les principales responsabilités d'une équipe d'ingénierie du chaos centralisée sont les suivantes :
-
Habilitation — Une fonction centralisée d'ingénierie du chaos sert de facilitateur pour introduire la pratique de l'ingénierie du chaos par le biais de journées de jeu et d'ateliers. Ils guident les équipes dans le processus d'ingénierie du chaos, notamment en sélectionnant des scénarios de défaillance, en définissant des hypothèses et en produisant des rapports à partager avec l'ensemble de l'organisation. L'équipe de pratique centralisée devrait posséder du matériel de formation et s'efforcer d'améliorer les compétences des équipes de pratique dans leur utilisation de l'ingénierie du chaos.
-
Conseil — L'équipe de pratique centralisée peut également jouer un rôle consultatif pour superviser les expériences menées par les équipes de praticiens. Leur expérience et leurs connaissances peuvent garantir que les expériences apportent de la valeur à l'entreprise et sont menées de manière sûre. De même, l'équipe peut superviser l'exécution et le compte rendu d'une expérience afin de guider les personnes novices dans le domaine de l'ingénierie du chaos.
-
Marketing et suivi de la valeur — La communication de la valeur commerciale de l'ingénierie du chaos est essentielle au succès d'un tel programme. Chaque équipe participant à des expériences d'ingénierie du chaos doit collecter des données issues des expériences menées dans l'ensemble de l'entreprise et démontrer la valeur de l'investissement de l'organisation dans l'ingénierie du chaos. Cela inclut la quantification et la célébration du nombre d'incidents évités au cours de chaque expérience, du temps d'arrêt qui aurait été encouru en cas d'échec de l'expérience et de l'impact global sur l'entreprise si les scénarios de défaillance s'étaient produits en production. En collectant et en centralisant ces données auprès de toutes les équipes, et en les rendant disponibles dans l'ensemble de l'organisation, l'équipe du cabinet centralisé peut suivre et influencer la valeur dérivée de l'adoption de l'ingénierie du chaos dans l'ensemble de l'organisation.
-
Normes — L'équipe de pratique centralisée doit posséder et maintenir le processus de réalisation des expériences de chaos, les modèles pour la planification et les rapports sur les expériences, ainsi que les outils utilisés pour mener les expériences.
L'équipe centrale doit posséder et gérer les modèles de planification des expériences, les modèles de rapports d'expériences, la documentation des processus et le matériel d'habilitation. La documentation sur les meilleures pratiques et les supports d'habilitation fournissent des conseils aux équipes de praticiens sur des sujets tels que les garde-fous qu'elles peuvent utiliser pour limiter l'impact d'une expérience, le moment où mener une expérience en production et la manière de faire évoluer leur utilisation de l'ingénierie du chaos au fil du temps. Pour des exemples de modèles et de sorties, consultez l'annexe.
L'équipe de pratique centralisée doit également être responsable du processus de réalisation d'une expérience, y compris les communications et l'escalade, ainsi que du moment et de la manière de communiquer avec les autres équipes de l'organisation avant ou pendant une expérience. Le processus doit également indiquer quand des garde-corps sont nécessaires.
L'équipe de pratique centralisée doit également sélectionner et posséder les principaux outils pour mener des expériences sur le chaos (par exemple, des outils tels que AWS FIS). La sélection et la mise en œuvre d'outils supplémentaires, tels que les outils de génération de charge, devraient être laissées à la discrétion des équipes de pratique. Les équipes de praticiens devraient être en mesure d'adapter l'ensemble du processus et des outils pour répondre au mieux à leurs besoins.
Rôle des équipes d'entraînement
L'équipe centralisée est chargée de piloter la stratégie globale d'ingénierie du chaos, tandis que les équipes de praticiens participent au processus et sont responsables du développement et de l'exécution des expériences. Cela permet de garantir que les expériences sont pertinentes pour chaque produit ou service spécifique, et que les enseignements sont exploitables et peuvent être appliqués pour améliorer la fiabilité et la résilience du produit. L'équipe du cabinet centralisé agit en tant que mentor et responsable des normes et des processus d'ingénierie du chaos de l'organisation. Cependant, afin d'éviter que l'équipe centralisée ne devienne un goulot d'étranglement, les équipes de pratique individuelles devront s'inspirer de la pratique centrale pour réaliser elles-mêmes des expériences de chaos.
Création d'une communauté de pratique
En plus de créer une équipe centralisée, nous vous recommandons de créer une communauté informelle de praticiens intéressés par l'ingénierie du chaos. Cette communauté fournit une plate-forme pour partager les connaissances, les meilleures pratiques et les expériences entre les équipes de pratique et l'ensemble de l'organisation.
La communauté de pratique peut être gérée par l'équipe centralisée du cabinet d'ingénierie du chaos, mais n'importe quel membre de l'organisation peut devenir membre de la communauté. L'équipe centralisée peut tirer parti de la communauté de pratique pour diffuser des mises à jour et générer des enseignements, et pour recueillir les commentaires des équipes de pratique qui utilisent les normes et les processus gérés par l'équipe centralisée. La communauté agira comme une boucle de rétroaction pour informer l'équipe centralisée de l'efficacité des pratiques d'ingénierie du chaos au sein des équipes de pratique. L'équipe de pratique centralisée peut ensuite ajuster sa documentation et ses artefacts de support afin de soutenir au mieux les équipes produit.
Intégrer l'ingénierie du chaos à votre résilience opérationnelle
Une expérience de chaos est un investissement de la part de votre entreprise pour prévenir les incidents de production. Il sera nécessaire de déterminer où l'entreprise peut tirer le meilleur parti de cet investissement. L'organisation peut travailler avec l'équipe centralisée du cabinet d'ingénierie du chaos pour mettre à jour ses normes et déterminer quels produits sont suffisamment critiques pour nécessiter une expérimentation du chaos.
Processus de développement des systèmes
L'ingénierie du chaos et les expériences de chaos doivent être effectuées à plusieurs reprises dans le cadre du cycle de vie d'une application. Tout comme les équipes effectuent régulièrement des tests de reprise après sinistre, elles devraient mener des expériences de chaos et des journées de jeu de manière continue et périodique tout au long de l'année. Cette approche améliore la façon dont une organisation anticipe, observe et répond aux incidents.