# OPS10-BP01 Utiliser un processus pour la gestion des événements, des incidents et des problèmes
<a name="ops_event_response_event_incident_problem_process"></a>

La capacité à gérer efficacement les événements, les incidents et les problèmes est essentielle pour préserver l’intégrité et les performances de la charge de travail. Il est essentiel de reconnaître et de comprendre les différences entre ces éléments pour développer une stratégie de réponse et de résolution efficace. La mise en place et le suivi d’un processus bien défini pour chaque aspect aident votre équipe à relever rapidement et efficacement tous les défis opérationnels qui se présentent.

 **Résultat escompté :** votre organisation gère efficacement les événements opérationnels, les incidents et les problèmes grâce à des processus bien documentés et stockés de manière centralisée. Ces processus sont constamment mis à jour pour refléter les changements, rationaliser la gestion et préserver une fiabilité de service et des performances de charge de travail élevées. 

 **Anti-modèles courants :** 
+  Vous êtes réactif et non proactif face aux événements. 
+  Des approches incohérentes sont adoptées à l’égard de différents types d’événements ou d’incidents. 
+ Votre organisation n’analyse pas les incidents et n’en tire pas les leçons nécessaires pour éviter qu’ils se reproduisent à l’avenir.

 **Avantages liés au respect de cette bonne pratique :** 
+  Processus de réponse rationalisés et standardisés. 
+  Réduction de l’impact des incidents sur les services et les clients. 
+  Résolution accélérée des problèmes. 
+  Amélioration continue des processus opérationnels. 

 **Niveau d’exposition au risque si cette bonne pratique n’est pas respectée :** élévé 

## Directives d’implémentation
<a name="implementation-guidance"></a>

 Le respect de cette bonne pratique signifie que vous suivez les événements de charge de travail. Vous disposez de processus pour gérer les incidents et les problèmes. Les processus sont documentés, partagés et mis à jour fréquemment. Les problèmes sont identifiés, hiérarchisés et résolus. 

 **Comprendre les événements, les incidents et les problèmes** 
+  **Événement :** un *événement* est une observation d’action, d’occurrence ou de modification d’un état. Les événements peuvent être planifiés ou imprévus et peuvent avoir une origine interne ou externe à la charge de travail. 
+  **Incidents :** *les incidents* sont des événements qui nécessitent une réponse. Il peut notamment s’agir d’interruptions imprévues ou de dégradations de la qualité du service. Les incidents sont des perturbations qui nécessitent une attention immédiate pour rétablir le fonctionnement normal de la charge de travail. 
+  **Problèmes :** *les problèmes* sont les causes sous-jacentes d’un ou de plusieurs incidents. L’identification et la résolution des problèmes impliquent d’étudier plus en profondeur les incidents afin d’éviter qu’ils se reproduisent. 

### Étapes d’implémentation
<a name="implementation-steps"></a>

 **Événements** 

1.  **Surveiller des événements :** 
   +  [Mettez en œuvre l’observabilité](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) et [utilisez l’observabilité de la charge de travail](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Les actions de surveillance entreprises par un utilisateur, un rôle ou un service AWS sont enregistrées sous forme d’événements dans [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Répondez aux changements opérationnels de vos applications en temps réel avec [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Évaluez, surveillez et enregistrez en permanence les modifications de configuration des ressources avec [AWS Config](https://aws.amazon.com/config/). 

1.  **Créez des processus :** 
   +  Élaborez un processus pour évaluer quels événements sont importants et nécessitent une surveillance. Pour ce faire, il faut fixer des seuils et des paramètres pour les activités normales et anormales. 
   +  Déterminez les critères permettant de transformer un événement en incident. Cette évaluation peut être basée sur la gravité, l’impact sur les utilisateurs ou un écart par rapport au comportement attendu. 
   +  Passez régulièrement en revue les processus de surveillance et de réponse aux événements. Il s’agit notamment d’analyser les incidents passés, d’ajuster les seuils et d’affiner les mécanismes d’alerte. 

 **Incidents** 

1.  **Intervenir en cas d’incident :** 
   +  Utilisez les informations issues des outils d’observabilité pour identifier rapidement les incidents et y répondre. 
   +  Mettre en place un [centre d’opérations AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) pour regrouper, organiser et hiérarchiser les éléments opérationnels et les incidents. 
   +  Utilisez des services tels qu’[Amazon CloudWatch [AWS X-Ray](https://aws.amazon.com/xray/)](https://aws.amazon.com/cloudwatch/) pour effectuer des analyses approfondies et résoudre les problèmes. 
   +  Envisagez [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) pour améliorer la gestion des incidents, en tirant parti de ses capacités proactives, préventives et de détection. AMS étend son support opérationnel avec des services tels que la surveillance, la détection et la réponse aux incidents, ainsi que la gestion de la sécurité. 
   +  Les clients du support aux entreprises peuvent utiliser la [détection et la réponse aux incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), qui fournissent une surveillance proactive continue et une gestion des incidents pour les charges de travail de production. 

1.  **Créez un processus de gestion des incidents :** 
   +  Établissez un processus structuré de gestion des incidents, comprenant des rôles clairs, des protocoles de communication et des étapes de résolution. 
   +  Intégrez la gestion des incidents à des outils comme [Amazon Q Developer dans les applications de chat](https://aws.amazon.com/chatbot/) pour une réponse et une coordination efficaces. 
   +  Classez les incidents par ordre de gravité, avec des [plans d’intervention en cas d’incidents](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) prédéfinis pour chaque catégorie. 

1.  **Apprenez et améliorez vos processus :** 
   +  Effectuez une [analyse post-incident](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) pour comprendre les causes profondes et l’efficacité de l’intervention. 
   +  Mettez à jour et améliorez en continu les plans de réponse en fonction des examens et de l’évolution des pratiques. 
   +  Documentez et partagez les leçons apprises entre les équipes afin d’améliorer la résilience opérationnelle. 
   +  Les clients du support aux entreprises peuvent demander [l’atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) auprès de leur responsable de compte technique. Le présent atelier guidé vous permet d’évaluer votre plan d’intervention en cas d’incident et d’identifier les points à améliorer. 

 **Problèmes** 

1.  **Identifiez les problèmes :** 
   +  Utilisez les données relatives aux incidents précédents pour identifier des modèles récurrents susceptibles d’indiquer des problèmes systémiques plus profonds. 
   +  Tirez parti d’outils tels [AWS CloudTrail](https://aws.amazon.com/cloudtrail/)qu’[Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) pour analyser les tendances et découvrir les problèmes sous-jacents. 
   +  Mobilisez des équipes interfonctionnelles, y compris les services des opérations et du développement, ainsi que les unités commerciales, afin d’obtenir des points de vue diversifiés sur les causes profondes. 

1.  **Créez un processus de gestion des problèmes :** 
   +  Développez un processus structuré pour la gestion des problèmes, en mettant l’accent sur des solutions à long terme plutôt que sur des correctifs rapides. 
   +  Intégrez des techniques d’analyse des causes profondes (RCA) pour étudier et comprendre les causes sous-jacentes des incidents. 
   +  Mettez à jour les politiques, les procédures et l’infrastructure opérationnelles en fonction des résultats pour éviter tout incident. 

1.  **Continuez à améliorer vos processus :** 
   +  Favorisez une culture d’apprentissage et d’amélioration continus, en incitant les équipes à identifier et à résoudre les problèmes potentiels de manière proactive. 
   +  Passez régulièrement en revue et révisez les processus et les outils de gestion des problèmes afin de les aligner sur l’évolution des environnements commerciaux et technologiques. 
   +  Partagez des informations et des bonnes pratiques au sein de l’organisation afin de créer un environnement opérationnel plus résilient et plus efficace. 

1.  **Impliquez AWS Support :** 
   +  Utilisez des ressources d’assistance AWS [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), telles que des conseils proactifs et des recommandations d’optimisation. 
   +  Les clients du support aux entreprises peuvent accéder à des programmes spécialisés tels que [AWSCountdown](https://aws.amazon.com/premiumsupport/aws-countdown/) pour obtenir une assistance lors d’événements critiques. 

 **Niveau d’effort du plan d’implémentation :** faible 

## Ressources
<a name="resources"></a>

 **Bonnes pratiques associées:** 
+  [OPS04-BP01 Identifier les indicateurs de performance clés](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implémenter la télémétrie des applications](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Utilisation de runbooks pour effectuer des procédures](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Utilisation de playbooks pour analyser les problèmes](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analyser les métriques de charge de travail](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Réaliser une analyse post-incident](ops_evolve_ops_perform_rca_process.md) 

 **Documents connexes :** 
+  [Guide d’intervention en cas d’incident de sécurité AWS](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [Détection et intervention en cas d’incidents AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework : Operations Perspective – Gestion des incidents et des problèmes](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Gestion des incidents à l’âge du DevOps et de SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty : qu’est-ce que la gestion des incidents ?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vidéos connexes :** 
+ [Les meilleurs conseils de AWS en matière d’intervention en cas d’incident](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 – The Amazon Builders’ Library: 25 yrs of Amazon operational excellence](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [Présentation d’Incident Manager par AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Exemples connexes :** 
+  [Services proactifs AWS : atelier de gestion des incidents](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [Comment automatiser la réponse aux incidents avec PagerDuty et AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [Impliquer les intervenants en cas d’incident grâce aux horaires d’astreinte dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [Améliorer la visibilité et la collaboration lors de la gestion des incidents dans AWS Systems Manager Incident Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [Rapports d’incidents et demandes de service dans AMS](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Services connexes :** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)