OPS10-BP04 Définir l’acheminement hiérarchique - AWS Well-Architected Framework

OPS10-BP04 Définir l’acheminement hiérarchique

Établissez des procédures de remontée claires dans vos protocoles de réponse aux incidents afin de faciliter une action rapide et efficace. Cela inclut la spécification des instructions de remontée, les détails de la procédure de remontée et l’approbation préalable des actions pour accélérer la prise de décision et réduire le délai moyen de résolution (MTTR).

Résultat souhaité : Un processus structuré et efficace qui transmet les incidents au personnel approprié, minimisant ainsi les temps de réponse et l’impact.

Anti-modèles courants :

  • Le manque de clarté des procédures de récupération entraîne des interventions improvisées lors d’incidents critiques.

  • L’absence d’autorisations et de propriétaires définis entraîne des retards lorsqu’une action urgente est nécessaire.

  • Les parties prenantes et les clients ne sont pas informés conformément aux attentes.

  • Les décisions importantes sont reportées.

Avantages liés au respect de cette bonne pratique :

  • Réponse rationalisée aux incidents grâce à des procédures de remontée prédéfinies.

  • Réduction des temps d’arrêt grâce à des actions préapprouvées et à la définition claire d’un propriétaire.

  • Meilleure allocation des ressources et ajustements du niveau d’assistance en fonction de la gravité de l’incident.

  • Meilleure communication avec les parties prenantes et les clients.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : Moyen

Directives d’implémentation

Il est crucial de définir correctement les procédures de remontée pour répondre rapidement aux incidents. AWS Systems Manager Incident Manager prend en charge la mise en place de plans de remontée structurés et de calendriers d’astreinte, qui alertent le personnel concerné afin qu’il soit prêt à intervenir en cas d’incident.

Étapes d’implémentation

  1. Configurez les invites de remontée : Configurez des alarmes CloudWatch pour créer un incident dans AWS Systems Manager Incident Manager.

  2. Configurez des horaires d’astreinte : Créez des horaires d’astreinte dans Incident Manager en fonction de vos procédures de remontée. Dotez le personnel d’astreinte des autorisations et des outils nécessaires afin de lui permettre d’agir rapidement.

  3. Détaillez les procédures de remontée :

    • Déterminez les conditions spécifiques dans lesquelles un incident doit faire l’objet d’une remontée.

    • Créez des plans de remontée dans Incident Manager.

    • Les canaux de remontée doivent inclure un contact ou un calendrier d’astreinte.

    • Définissez les rôles et les responsabilités de l’équipe à chaque niveau de la remontée.

  4. Préapprouvez les mesures d’atténuation : Collaborez avec les décisionnaires pour préapprouver les actions associées aux scénarios prévus. Utilisez les runbooks Systems Manager Automation intégrés à Incident Manager pour accélérer la résolution des incidents.

  5. Spécifiez le propriétaire : Identifiez clairement les propriétaires internes pour chaque étape de la procédure de remontée.

  6. Détaillez les remontées par des tiers :

    • Documentez les accords de niveau de service (SLA) tiers et alignez-les sur les objectifs internes.

    • Définissez des protocoles clairs pour la communication avec les fournisseurs lors d’incidents.

    • Intégrez les contacts des fournisseurs dans les outils de gestion des incidents pour un accès direct.

    • Effectuez régulièrement des exercices qui incluent des scénarios de réponse par des tiers.

    • Documentez les informations relatives à la remontée fournisseurs et veillez à ce qu’elles soient facilement accessibles.

  7. Entraînez-vous et répétez les plans de remontée : Formez votre équipe à la procédure de remontée et organisez régulièrement des exercices de réponse aux incidents ou des journées de jeu. Les clients ayant un plan de support Business peuvent demander un atelier Gestion des incidents.

  8. Continuez à améliorer vos processus : Vérifiez régulièrement l’efficacité de vos procédures de remontée. Mettez à jour vos procédures en fonction des leçons tirées des analyses post-mortem des incidents et des commentaires fournis en continu.

Niveau d’effort du plan d’implémentation : Modéré

Ressources

Bonnes pratiques associées :

Documents connexes :