OPS10-BP02 Disposer d’un processus par alerte - AWS Well-Architected Framework

OPS10-BP02 Disposer d’un processus par alerte

Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations.

Résultat souhaité : Chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles.

Anti-modèles courants :

  • Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées.

  • En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées.

  • Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités.

Avantages liés au respect de cette bonne pratique :

  • Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables.

  • Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels.

  • Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR.

  • Capacité accrue à adapter les réponses opérationnelles.

  • Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : Élevé

Directives d’implémentation

Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences.

Étapes d’implémentation

Le schéma suivant illustre le flux de travail de gestion des incidents dans AWS Systems Manager Incident Manager. Il est conçu pour répondre rapidement aux problèmes opérationnels en créant automatiquement des incidents en réponse à des événements spécifiques provenant d’ Amazon CloudWatch ou Amazon EventBridge. Lorsqu’un incident est créé, automatiquement ou manuellement, Incident Manager centralise la gestion de l’incident, organise les informations pertinentes sur les ressources AWS et lance des plans de réponse prédéfinis. Cela inclut l’exécution de runbooks Systems Manager Automation pour une action immédiate, ainsi que la création d’un élément de travail opérationnel parent dans OpsCenter afin de suivre les tâches et les analyses associées. Ce processus rationalisé accélère et coordonne la réponse aux incidents dans l’ensemble de votre environnement AWS.

Organigramme illustrant la façon dont Incident Manager fonctionne – Amazon Q Developer in chat applications, les plans et les contacts de remontée, ainsi que les runbooks, sont intégrés aux plans de réponse, qui sont ajoutés aux incidents et aux analyses. Amazon CloudWatch est également pris en compte dans les plans de réponse.

  1. Utilisez des alarmes composites : Créez des alarmes composites dans CloudWatch afin de regrouper les alarmes associées. Cela vous permettra de réduire le bruit et de mettre en place des réponses plus significatives.

  2. Intégrez les alarmes Amazon CloudWatch à Incident Manager Configurez les alarmes CloudWatch de façon à créer automatiquement des incidents dans AWS Systems Manager Incident Manager.

  3. Intégrez Amazon EventBridge à Incident Manager : Créez des règles EventBridge pour réagir aux événements et créer des incidents à l’aide de plans de réponse définis.

  4. Préparez-vous aux incidents dans Incident Manager :

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :