OPS10-BP02 Disposer d’un processus par alerte
Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations.
Résultat souhaité : Chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles.
Anti-modèles courants :
-
Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées.
-
En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées.
-
Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités.
Avantages liés au respect de cette bonne pratique :
-
Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables.
-
Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels.
-
Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR.
-
Capacité accrue à adapter les réponses opérationnelles.
-
Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : Élevé
Directives d’implémentation
Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences.
Étapes d’implémentation
Le schéma suivant illustre le flux de travail de gestion des incidents dans AWS Systems Manager Incident Manager
-
Utilisez des alarmes composites : Créez des alarmes composites dans CloudWatch afin de regrouper les alarmes associées. Cela vous permettra de réduire le bruit et de mettre en place des réponses plus significatives.
-
Intégrez les alarmes Amazon CloudWatch à Incident Manager Configurez les alarmes CloudWatch de façon à créer automatiquement des incidents dans AWS Systems Manager Incident Manager.
-
Intégrez Amazon EventBridge à Incident Manager : Créez des règles EventBridge pour réagir aux événements et créer des incidents à l’aide de plans de réponse définis.
-
Préparez-vous aux incidents dans Incident Manager :
-
Établissez des plans de réponse détaillés dans Incident Manager pour chaque type d’alerte.
-
Établissez des canaux de discussion via Amazon Q Developer in chat applications connecté aux plans de réponse dans Incident Manager, afin de faciliter la communication en temps réel lors d’incidents sur des plateformes telles que Slack, Microsoft Teams et Amazon Chime.
-
Intégrez les runbooks Systems Manager Automation dans Incident Manager afin de mettre en place des réponses automatisées pour les incidents.
-
Ressources
Bonnes pratiques associées :
Documents connexes :
Vidéos connexes :
Exemples connexes :