Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anomalie-Erkennung
Amazon Managed Service for Prometheus bietet Funktionen zur Erkennung von Anomalien, die mithilfe von Algorithmen für maschinelles Lernen automatisch ungewöhnliche Muster in Ihren Metrikdaten identifizieren. Diese Funktion hilft Ihnen dabei, proaktiv potenzielle Probleme zu erkennen, die Warnungsmüdigkeit zu verringern und Ihre Überwachungseffizienz zu verbessern, indem Sie sich auf wirklich anomales Verhalten statt auf statische Schwellenwerte konzentrieren.
Die Anomalieerkennung in Amazon Managed Service for Prometheus verwendet den Random Cut Forest (RCF) -Algorithmus, der Ihre Zeitreihendaten analysiert, um normale Verhaltensmuster zu ermitteln und Abweichungen von diesen Mustern zu identifizieren. Der Algorithmus passt sich an saisonale Trends an, behandelt fehlende Daten elegant und liefert Vertrauenswerte für erkannte Anomalien.
Funktionsweise der Anomalieerkennung
Amazon Managed Service for Prometheus verwendet maschinelles Lernen, um ungewöhnliche Muster in Metrikdaten ohne manuelle Schwellenwertkonfiguration zu identifizieren. Das System lernt normale Verhaltensmuster und saisonale Schwankungen kennen, wodurch Fehlalarme reduziert und Probleme frühzeitig erkannt werden können. Es passt sich kontinuierlich an Anwendungsänderungen an und eignet sich daher für dynamische Cloud-Umgebungen.
Die Anomalieerkennung überwacht Leistungskennzahlen von Anwendungen wie Reaktionszeiten und Fehlerraten, verfolgt den Zustand der Infrastruktur anhand der CPU- und Speicherauslastung, erkennt ungewöhnliches Benutzerverhalten, identifiziert anhand von Verkehrsanalysen den Bedarf an Kapazitätsplanung und überwacht Geschäftskennzahlen auf unerwartete Änderungen. Sie funktioniert am besten bei vorhersehbaren Mustern, saisonalen Schwankungen oder allmählichen Wachstumstrends.
Der RCF-Algorithmus (Random Cut Forest) wird zur Analyse von Zeitreihendaten verwendet. RCF erstellt Entscheidungsbäume, die den Datenraum unterteilen, und identifiziert isolierte Punkte, die weit von der Normalverteilung entfernt sind. Der Algorithmus lernt aus eingehenden Daten, um für jede Metrik ein dynamisches Modell des Normalverhaltens zu erstellen.
Wenn diese Option aktiviert ist, analysiert er historische Daten, um Basismuster und saisonale Trends zu ermitteln, generiert dann Prognosen für erwartete Werte und identifiziert Abweichungen. Der Algorithmus erzeugt vier wichtige Ergebnisse:
-
upper_band — Die obere Grenze der erwarteten Normalwerte
-
lower_band — Die untere Grenze der erwarteten Normalwerte
-
score — Ein numerischer Anomaliewert, der angibt, wie ungewöhnlich der Datenpunkt ist
-
Wert — Der tatsächlich beobachtete Metrikwert
Erste Schritte mit der Anomalieerkennung
Um mit der Verwendung der Anomalieerkennung mit Ihren Prometheus-Metriken zu beginnen, benötigen Sie genügend historische Daten, damit der Algorithmus normale Muster erkennen kann. Für optimale Ergebnisse empfehlen wir, mindestens 14 Tage über konsistente Metrikdaten zu verfügen, bevor Sie die Anomalieerkennung aktivieren.
Mithilfe der API können Sie in einer Vorschau sehen, wie die Anomalieerkennung mit Ihren Metriken funktionieren wird. PreviewAnomalyDetector Verwenden Sie diese OptionPreviewAnomalyDetector, um den Algorithmus anhand Ihrer historischen Daten zu testen und seine Wirksamkeit zu bewerten, bevor Sie ihn in die Produktionsüberwachung implementieren. Weitere Informationen finden Sie unter PreviewAnomalyDetector API.
Beachten Sie bei der Implementierung der Anomalieerkennung die folgenden bewährten Methoden:
-
Beginnen Sie mit stabilen Kennzahlen — Beginnen Sie mit Kennzahlen, die konsistente Muster aufweisen, und vermeiden Sie zunächst sehr volatile oder spärliche Daten.
-
Verwenden Sie aggregierte Daten — Wenden Sie die Anomalieerkennung auf aggregierte Kennzahlen (wie Durchschnittswerte oder Summen) an und nicht auf Rohdaten mit hoher Kardinalität, um eine bessere Leistung und Genauigkeit zu erzielen.
-
Sensitivität optimieren — Passen Sie die Algorithmusparameter an Ihren spezifischen Anwendungsfall und Ihre Toleranz für Fehlalarme im Vergleich zu übersehenen Anomalien an.
-
Überwachen Sie die Leistung des Algorithmus — Überprüfen Sie regelmäßig erkannte Anomalien, um sicherzustellen, dass der Algorithmus auch bei der Weiterentwicklung Ihres Systems wertvolle Erkenntnisse liefert.