OPS10-BP07 Automatiser les réponses aux événements
L’automatisation des réponses aux événements est essentielle pour une gestion opérationnelle rapide, cohérente et sans erreur. Créez des processus rationalisés et utilisez des outils pour gérer et répondre automatiquement aux événements, en minimisant les interventions manuelles et en améliorant l’efficacité opérationnelle.
Résultat souhaité :
-
Réduction des erreurs humaines et accélération des temps de résolution grâce à l’automatisation.
-
Gestion cohérente et fiable des événements opérationnels.
-
Amélioration de l’efficacité opérationnelle et de la fiabilité du système.
Anti-modèles courants :
-
La gestion manuelle des événements entraîne des retards et des erreurs.
-
L’automatisation est négligée pour les tâches critiques et répétitives.
-
Les tâches manuelles répétitives entraînent une lassitude liée aux alertes et peuvent nuire à la détection de problèmes critiques.
Avantages liés au respect de cette bonne pratique :
-
Réponses accélérées aux événements, réduisant ainsi les temps d’arrêt du système.
-
Des opérations fiables avec une gestion automatisée et cohérente des événements.
Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : Moyen
Directives d’implémentation
Intégrez l’automatisation pour créer des flux de travail opérationnels efficaces et minimiser les interventions manuelles.
Étapes d’implémentation
-
Identifiez les opportunités d’automatisation : Déterminez les tâches répétitives à automatiser, telles que la résolution des problèmes, l’enrichissement des tickets, la gestion des capacités, la mise à l’échelle, les déploiements et les tests.
-
Identifiez les invites d’automatisation :
-
Évaluez et définissez des conditions ou des métriques spécifiques qui déclenchent des réponses automatisées à l’aide des actions d’alarme Amazon CloudWatch.
-
Utilisez Amazon EventBridge
pour répondre aux événements liés aux services AWS, aux charges de travail personnalisées et aux applications SaaS. -
Envisagez des événements de lancement tels que des entrées de journal spécifiques, des seuils de métriques de performancesou des changements d’état dans les ressources AWS.
-
-
Mettez en œuvre une automatisation pilotée par les événements :
-
Utilisez les runbooks AWS Systems Manager Automation pour simplifier les tâches de maintenance, de déploiement et de correction.
-
La création d’incidents dans Incident Manager permet de collecter et d’ajouter automatiquement des détails sur les ressources AWS impliquées dans l’incident.
-
Surveillez les quotas de manière proactive à l’aide de Quota Monitor pour AWS
. -
Ajustez automatiquement la capacité avec AWS Auto Scaling
afin de préserver la disponibilité et les performances. -
Automatisez les pipelines de développement avec Amazon CodeCatalyst
. -
Effectuez des tests pratiques ou surveillez en permanence les paramètres et les API à l’aide de la surveillance synthétique.
-
-
Atténuez les risques grâce à l’automatisation :
-
Implémentez des réponses de sécurité automatisées
pour gérer rapidement les risques. -
Utilisez Gestionnaire d’états d’AWS Systems Manager pour réduire le changement de configuration.
-
Corrigez les ressources non conformes avec AWS Config Rules.
-
Niveau d’effort du plan d’implémentation : Élevé
Ressources
Bonnes pratiques associées :
Documents connexes :
Vidéos connexes :
Exemples connexes :