Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Testez les charges de travail intégrées dans le domaine de la détection et de la réponse aux incidents
Une fois Ingestion d'alarmes l'opération terminée, AWS Incident Detection and Response permet de surveiller votre charge de travail et envoie une Go-Live confirmation. Votre charge de travail est surveillée activement à partir de ce moment.
Les tests d'alarme permettent de vérifier que vos alarmes intégrées déclenchent la détection et la réponse aux incidents AWS comme prévu, déclenchent les runbooks appropriés et toute autre action souhaitée, telle que la création automatique de dossiers si vous l'avez sélectionnée lors de l'ingestion des alarmes.
Les tests sont facultatifs mais fortement recommandés. Il vous incombe de valider vos modalités d'intervention avant qu'un véritable incident ne se produise.
Options de test
AWS Incident Detection and Response propose deux options de test.
Option 1 : Planifié GameDay (recommandé)
Un planning GameDay est une simulation en direct de bout en bout de ce qui pourrait se passer lors d'un incident réel. AWS Incident Detection and Response suit les étapes que vous avez prescrites pour vous donner un aperçu de la manière dont un véritable incident peut se dérouler. GameDay C'est l'occasion pour vous de poser des questions ou d'affiner les instructions pour améliorer l'engagement.
Pour planifier un GameDay, procédez comme suit :
-
Notifiez AWS Incident Detection and Response en indiquant une date préférée et un créneau horaire d'une heure, fuseau horaire compris. Prévoir un délai de livraison d'au moins 48 heures.
-
Planifiez les ressources pour le GameDay, y compris votre SRE/Ops équipe et les contacts d'escalade.
GameDay calendrier :
-
Vous et AWS Incident Detection and Response participez à l'appel.
-
Vous désactivez les actions d'alarme, le cas échéant.
-
Vous réglez manuellement vos alarmes sur l'état ALARM en suivant les instructions contenues dansComment tester vos alarmes.
-
AWS Incident Detection and Response confirme la réception de la notification d'alarme.
-
AWS Incident Detection and Response répond à l'alarme et rejoint le pont prescrit dans votre runbook.
-
Vous et AWS Incident Detection and Response confirmez le GameDay résultat.
Option 2 : test d'alarme hors ligne
Vous pouvez tester vos alarmes indépendamment à tout moment sans planifier un appel. Le déclenchement d'une alarme active AWS Incident Detection and Response conformément à votre cahier des charges, comme lors d'un incident réel.
Pour tester les alarmes hors ligne, procédez comme suit :
-
Pour éviter les actions involontaires, désactivez toutes les actions CloudWatch d'alarme Amazon.
-
Déclenchez vos alarmes en suivant les instructions contenues dansComment tester vos alarmes.
-
Dans les 5 minutes, un dossier d'assistance est créé en votre nom et AWS Incident Detection and Response vous contacte comme indiqué dans votre runbook.
-
Informez le responsable des incidents que vous effectuez des tests d'alarme hors ligne.
-
Le gestionnaire d'incidents confirme quels changements d'état d'alarme ont été reçus et valide les modalités de réponse.
Si aucun dossier de support n'est créé dans les 5 minutes, soumettez une demande d'incident pour engager manuellement AWS Incident Detection and Response pour le dépannage.
Comment tester vos alarmes
CloudWatch Alarmes Amazon
Note
L' Gestion des identités et des accès AWS utilisateur ou le rôle que vous utilisez pour tester les alarmes doit disposer d'une cloudwatch:SetAlarmState autorisation.
Utilisez le AWS Command Line Interface ou AWS CloudShellpour régler manuellement votre alarme sur l'état ALARM. Ces commandes modifient l'état de l'alarme sans affecter votre charge de travail.
Pour éviter toute action involontaire, par exemple le redémarrage de l'instance Amazon EC2, désactivez CloudWatch toute action d'alarme avant de modifier l'état de l'alarme. Vous pouvez réactiver les actions CloudWatch d'alarme une fois les tests terminés. Pour en savoir plus sur la désactivation ou l'activation des actions d'alarme, consultez DisableAlarmActionset consultez EnableAlarmActionsle Amazon CloudWatch API Reference.
Désactiver les actions d'alarme :
aws cloudwatch disable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
Réglez l'état de l'alarme sur ALARM :
aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
Re-enable actions d'alarme après les tests :
aws cloudwatch enable-alarm-actions --alarm-names "ExampleAlarm" --regionus-east-1
L'état de l'alarme revient automatiquement à OK en quelques secondes.
Alarmes composites
La set-alarm-state commande ne garantit pas le retour à l'état OK des alarmes composites. La meilleure pratique consiste à vérifier l'état des alarmes composites après les tests. Pour réinitialiser manuellement une alarme composite, utilisez la commande suivante :
aws cloudwatch set-alarm-state --alarm-name "ExampleCompositeAlarm" --state-value OK --state-reason "Testing AWS Incident Detection and Response" --regionus-east-1
Pour en savoir plus sur la modification manuelle de l'état des CloudWatch alarmes, consultez SetAlarmStatele Amazon CloudWatch API Reference.
Pour en savoir plus sur les autorisations requises pour les opérations CloudWatch d'API, consultez la référence CloudWatch des autorisations Amazon.
Third-party Alarmes APM
Les charges de travail qui utilisent un outil tiers de surveillance des performances des applications (APM), tel que Datadog, Splunk, New Relic ou Dynatrace, nécessitent des instructions différentes pour simuler une alarme.
-
Désactivez les actions d'alarme dans votre APM pour éviter les actions involontaires.
-
Modifiez votre seuil d'alarme ou votre opérateur de comparaison pour forcer l'alarme à passer au statut ALARM. Cela déclenche une charge utile pour AWS Incident Detection and Response.
-
Une fois les tests terminés, annulez le seuil ou les modifications apportées par l'opérateur de comparaison pour rétablir le statut OK de l'alarme.
Principaux résultats
Après des tests réussis :
L'ingestion de l'alarme est confirmée et la configuration de votre alarme est correcte.
Les alarmes sont reçues par AWS Incident Detection and Response.
Un dossier d'assistance est créé et les contacts que vous avez prescrits sont avertis.
AWS Incident Detection and Response vous engage par les moyens de conférence que vous avez prescrits.
Toutes les alarmes et demandes d'assistance générées pendant les tests sont résolues.
Questions fréquentes (FAQ)
- Le test des alarmes est-il obligatoire ?
-
Non. Les tests sont facultatifs mais vivement recommandés pour valider vos dispositions d'intervention de bout en bout avant qu'un véritable incident ne se produise.
- Ma charge de travail sera-t-elle affectée ?
-
Non. Cependant, pendant le test, toutes les actions d'alarme configurées sur vos alarmes sont déclenchées, sauf si vous les désactivez. Désactivez les actions d'alarme avant les tests pour éviter les impacts imprévus.
- Qui est averti lors des tests ?
-
Au cours d'une planification GameDay, tous les contacts et chemins d'escalade de votre runbook sont contactés à des fins de vérification. Lors des tests d'alarme hors ligne, seul le contact initial spécifié lors de l'intégration de l'alarme est notifié.
- Puis-je répondre par e-mail aux mises à jour du dossier ?
-
Non. Des copies électroniques des correspondances Support relatives aux dossiers sont envoyées à partir d'une adresse de non-réponse. Pour mettre à jour un dossier, utilisez le AWS Support Center Console
. - Comment puis-je demander un service GameDay après-vente ?
-
Répondez à votre dossier d'assistance à l'intégration existant, s'il existe, ou créez unDemander des modifications à une charge de travail intégrée dans Incident Detection and Response.