Wie RCF zum Erkennen von Anomalien angewendet wird - Amazon QuickSight

Wie RCF zum Erkennen von Anomalien angewendet wird

Ein Mensch kann ganz einfach einen Datenpunkt unterscheiden, der sich von den übrigen Daten abhebt. RCF macht es ähnlich, indem eine „Gesamtstruktur“ („Wald“) von Entscheidungsstrukturen erstellt und anschließend überwacht wird, wie neue Datenpunkte die Gesamtstruktur ändern.

Eine anomaly (Anomalie) ist ein Datenpunkt, der Ihre Aufmerksamkeit von normalen Punkten ablenkt – denken sie an ein Image einer roten Blume in einem Feld von gelben Blumen. Diese „Verschiebung der Aufmerksamkeit“ ist in der (erwarteten) Position einer Struktur (d. h., einem Modell in RCF) kodiert, die vom Eingabepunkt belegt wird. Ziel ist es, eine Gesamtstruktur zu erstellen, wobei jede Entscheidungsstruktur aus einer Partition der Daten entsteht, die für die Schulung des Algorithmus gesampelt werden. Technisch ausgedrückt erstellt jede Struktur eine bestimmte Art von binärer Struktur der Speicherpartitionierung für die Stichproben. Wenn Amazon QuickSight die Daten sampelt, weist RCF jedem Datenpunkt eine Anomaliebewertung zu. Es vergibt höhere Bewertungen an Datenpunkte, die anomal aussehen. Die Bewertung ist annähernd umgekehrt proportional zur resultierenden Tiefe des Punkts in der Struktur. Random Cut Forest weist die Anomaliebewertung durch Berechnung der durchschnittlichen Bewertung jeder einzelnen Struktur und Skalierung des Ergebnisses unter Berücksichtigung der Stichprobengröße zu.

Die Stimmen oder Bewertungen der verschiedenen Modelle werden aggregiert, da jedes der Modelle selbst eine schwache Prognosekraft ist. Amazon QuickSight identifiziert einen Datenpunkt als anormal, wenn sich sein Wert deutlich von den aktuellen Punkten unterscheidet. Was als Anomalie gilt, hängt von der Anwendung ab.

Die Abhandlung Random Cut Forest Based Anomaly Detection On Streams bietet mehrere Beispiele für diese moderne Online-Anomalieerkennung (Zeitreihen-Anomalieerkennung). RCFs werden für fortlaufende Segmente oder "Shingles" von Daten verwendet, wobei die Daten im unmittelbaren Segment als Kontext für die neuesten fungieren. Vorherige Versionen von RCF-basierten Algorithmen der Anomalieerkennungs bewerten einen ganzen Shingle. Der Algorithmus in Amazon QuickSight bietet außerdem eine ungefähre Position der Anomalie im aktuellen erweiterten Kontext. Diese ungefähre Position kann in dem Szenario nützlich sein, in dem es zur Verzögerung für die Erkennung der Anomalie kommt. Verzögerungen treten auf, da jeder Algorithmus "vorher gesehene Abweichungen" in "anomale Abweichungen" kennzeichnen muss, die sich über einen Zeitraum ergeben können.