Vereinheitlichte Abläufe Erste Schritte: Integrieren Sie kritische Alarme für ein schnelles Incident-Management

Um Sie schnell über kritische Vorfälle zu informieren, führen Sie die folgenden Schritte aus, um Ihre Alarme in die Erkennung und Reaktion von AWS Vorfällen zu integrieren

Definieren und konfigurieren Sie Ihre kritischen Alarme für ein schnelles Incident-Management. Ausführliche Informationen finden Sie unter Definieren und Konfigurieren von Alarmen in Incident Detection and Response im Benutzerhandbuch für Incident Detection and Response.
1. Schritte zur Einrichtung von Alarmen mit Amazon CloudWatch finden Sie unter Definieren und Konfigurieren von Alarmen in Incident Detection and Response im Incident Detection and Response User Guide. AWS Empfehlungen zu den verschiedenen AWS-Services Arten kritischer Alarme finden Sie unter Incident Detection and Response (IDR). Wenden Sie sich an Ihr AWS Unified Operations-Team AWS , wenn Sie die Erstellung kritischer AWS Alarme für Ihre markierten AWS Ressourcen automatisieren möchten.
2. Informationen zur Weiterleitung oder Aufnahme kritischer Alarme von APM-Tools von Drittanbietern mit direkter EventBridge Amazon-Integration, wie, usw. DataDog NewRelic, finden Sie unter Erfassen von Alarmen von APMs, die direkt mit Amazon integriert sind, EventBridge im AWS Incident Detection and Response User Guide. Sie müssen eine Reihe von AWS Ressourcen (AWS Lambda und Amazon EventBridge Event Bus-Regeln) bereitstellen, um Ihren Alarm (Ereignis) umzuwandeln und an AWS Incident Detection and Response weiterzuleiten. Ihr AWS Unified Operations-Team kann Ihnen helfen, die CloudFormation Vorlage für die Installation dieser Ressourcen bereitzustellen.
3. Leiten Sie kritische Alarme über ein APM-Tool eines Drittanbieters, das nicht direkt mit Amazon integriert ist, weiter oder nehmen Sie kritische Alarme von Ihrem benutzerdefinierten Überwachungstool auf. EventBridge Weitere Informationen finden Sie unter Verwenden von Webhooks zur Erfassung von Alarmen von APMs ohne direkte Integration mit Amazon EventBridge im AWS Incident Detection and Response User Guide. Sie müssen eine Reihe von AWS Ressourcen (API Gateway AWS Lambda Gateway-Funktionen und Amazon EventBridge Event Bus-Regeln) bereitstellen, um Ihren Alarm (Ereignis) umzuwandeln und an AWS Incident Detection and Response weiterzuleiten. Ihr AWS Unified Operations-Team kann Ihnen helfen, die CloudFormation Vorlage für die Installation dieser Ressourcen bereitzustellen.
Geben Sie Einzelheiten zur Workload-Architektur, Kontaktinformationen und Runbook-Informationen zu Abhilfemaßnahmen bei kritischen Alarmen an. Führen Sie dazu die folgenden Schritte aus:
1. Laden Sie den Fragebogen zum Onboarding von Workloads zur Erkennung und Reaktion auf AWS Vorfälle für jede kritische Arbeitslast oder Anwendung sowie den Fragebogen zur Erfassung von Alarmen für jeden einzelnen Workload herunter und füllen Sie ihn aus.
  
  Die Informationen in diesen Fragebögen helfen dem AWS Team bei der Entwicklung eines Runbooks zur Behebung von Zwischenfällen. Dieses Runbook ermöglicht es, geeignete Maßnahmen zu ergreifen, um kritische Alarme schnell zu beheben und zu beheben, bevor sie zu Betriebsausfällen führen. Beispiele und Beispielinformationen finden Sie unter Fragebögen zum Onboarding von Workloads und zur Erfassung von Alarmen in Incident Detection and Response. AWS
Bieten Sie Zugriff auf Ihre kritischen Alarme zur Erkennung und Reaktion auf Vorfälle AWS
1. Nutzen Sie die AWSServiceRoleForHealth_EventProcessor Service-Linked Role (SLR) bei der AWS-Konto Ausführung kritischer Workloads, die vom AWS Incident-Management-Team überwacht werden sollen. Weitere Informationen finden Sie unter Zugriff auf die Erfassung von Warnmeldungen für AWS Incident Detection and Response bereitstellen.
  
  Anmerkung
  Um Sie beim Onboarding großer Geräte zu unterstützen AWS-Konten, AWS kann ich Ihnen ein AWS Command Line Interface Skript zur Verfügung stellen, mit dem Sie die Bereitstellung dieser Spiegelreflexkamera beschleunigen können.
2. (Optional) Wenn sich Ihre Alarme in Amazon befinden CloudWatch, stellen Sie sicher, dass der AWS Identity and Access Management Benutzer oder die Rolle, die für die Alarmtests (vor dem Go-Live) verwendet wird, über die cloudwatch:SetAlarmState IAM-Berechtigung in Ihrem System verfügt AWS-Konto , das den kritischen Workload ausführt. Dies ist für Alarmtests (Spieltag) nach dem Onboarding erforderlich. Weitere Informationen findest du unter Testen integrierter Workloads in Incident Detection and Response. AWS
Erstellen Sie einen Kundenvorgang, AWS Support um einen Workload für ein schnelles Incident-Management zu abonnieren. Beachten Sie, dass Ihr AWS-Konto System automatisch für die schnelle Verwaltung eingehender Vorfälle aktiviert ist. Das bedeutet, dass Sie einen Fall über die Support Center-Konsole, das oder das AWS SDK in die Warteschlange für Unified Operations Incident Detection and Response aufnehmen können AWS Command Line Interface, um schnell zu reagieren. AWS Um proaktiv Incidents mit einem ausgehenden AWS Support Fall zu überwachen und zu erstellen, erstellen Sie einen AWS Support Fall für Ihre kritische Arbeitslast. Führen Sie dazu die folgenden Schritte aus:
1. Melden Sie sich bei an AWS Support Center Console, wählen Sie Fall erstellen und dann Technischer Support aus.
2. Wählen Sie für Service die Option Incident Detection and Response aus.
3. Wählen Sie als Kategorie die Option Neuen Workload einbinden aus.
4. Wählen Sie unter Schweregrad die Option Allgemeine Hinweise aus.
5. Die Fragebögen zur Arbeitslast und zum Alarm, die Sie im vorherigen Schritt ausgefüllt haben, sind beigefügt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Voraussetzungen

Beantragen Sie eine Reaktionszeit von 5 Minuten

Vereinheitlichte Abläufe Erste Schritte: Integrieren Sie kritische Alarme für ein schnelles Incident-Management

Anmerkung