

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Den von Amazon Quick Sight verwendeten ML-Algorithmus verstehen
<a name="concept-of-ml-algorithms"></a>


|  | 
| --- |
|  Sie benötigen keine technische Erfahrung im Bereich maschinelles Lernen, um die ML-gestützten Funktionen in Amazon Quick Sight nutzen zu können. Dieser Abschnitt befasst sich mit den technischen Aspekten des Algorithmus für alle, die seine Funktionsweise genauer kennen lernen möchten. Diese Informationen sind nicht erforderlich, um die Funktionen zu nutzen.   | 

Amazon Quick Sight verwendet eine integrierte Version des Random Cut Forest (RCF) -Algorithmus. In den folgenden Abschnitten wird erklärt, was das bedeutet und wie es in Amazon Quick Sight verwendet wird.

Sehen wir uns zunächst die dabei verwendete Terminologie an: 
+ Anomalie – steht für etwas, das sich durch seine Abweichung von der Mehrheit anderer Dinge in derselben Probe auszeichnet. Auch Ausreißer, Ausnahme, Abweichung usw. genannt.
+ Datenpunkt – eine diskrete Einheit – oder, einfacher ausgedrückt, eine Zeile in einem Datensatz. Eine Zeile kann jedoch mehrere Datenpunkte beinhalten, wenn ein Maß über mehrere Dimensionen hinweg verwendet wird.
+ Entscheidungsstruktur – eine Möglichkeit zur Visualisierung der Entscheidungsfindung des Algorithmus, der Muster in den Daten evaluiert.
+ Prognose – eine Vorhersage künftiger Verhaltensweisen basierend auf aktuellen und vergangenen Verhaltensweisen.
+ Modell – eine mathematische Darstellung des Algorithmus oder dessen, was der Algorithmus lernt.
+ Saisonabhängigkeit – die sich wiederholenden Verhaltensmuster, die in den Zeitseriendaten zyklisch auftreten.
+ Zeitserie – eine geordnete Reihe von Datums- oder Zeitwerten in einem Feld oder einer Spalte.

**Topics**
+ [Was ist der Unterschied zwischen Anomalieerkennung und Prognosen?](difference-between-anomaly-detection-and-forecasting.md)
+ [Was ist RCF?](what-is-random-cut-forest.md)
+ [Wie RCF zum Erkennen von Anomalien angewendet wird](how-does-rcf-detect-anomalies.md)
+ [Wie RCF zum Generieren von Prognosen angewendet wird](how-does-rcf-generate-forecasts.md)
+ [Referenzen für Machine Learning und RCF](learn-more-about-machine-learning-and-rcf.md)

# Was ist der Unterschied zwischen Anomalieerkennung und Prognosen?
<a name="difference-between-anomaly-detection-and-forecasting"></a>

Bei der Erkennung von Anomalien werden Ausreißer und deren Einflussfaktoren identifiziert, um die Frage zu beantworten: „Was ist passiert, was normalerweise nicht passiert?“ Prognosen beantworten die Frage: "Wenn alles weiterhin wie erwartet passiert, was geschieht in der Zukunft?" Die Berechnung, die Prognosen erlaubt, ermöglicht uns zu fragen "Wenn sich einige Dinge ändern, was geschieht dann?" 

Sowohl die Erkennung von Anomalien als auch die Prognose beginnen mit der Untersuchung der aktuell bekannten Datenpunkte. Die Erkennung von Anomalien durch Amazon Quick Sight beginnt mit dem, was bekannt ist, sodass festgestellt werden kann, was außerhalb des bekannten Datensatzes liegt, und diese Datenpunkte als anomal (Ausreißer) identifizieren. Die Prognosen von Amazon Quick Sight schließen die anomalen Datenpunkte aus und halten sich an das bekannte Muster. Prognosen konzentrieren sich auf das etablierte Muster der Datenverteilung. Im Gegensatz dazu konzentriert sich Anomalieerkennung auf die Datenpunkte, die von dem abweichen, was erwartet wird. Jede Methode geht die Entscheidungsfindung aus einer anderen Richtung an. 

# Was ist RCF?
<a name="what-is-random-cut-forest"></a>

Ein *Random Cut Forest* (RCF) ist eine spezielle Art des *Random Forest* (RF)-Algorithmus, einer weit verbreiteten und erfolgreichen Technik des Machine Learning. Er verwendet eine Reihe von zufälligen Datenpunkten, kürzt sie zu derselben Zahl von Punkten und baut dann eine Sammlung von Modellen auf. Im Gegensatz dazu entspricht ein Modell einer´m Entscheidungsbaum – daher die Bezeichnung als „Wald“. Da sie nicht einfach inkrementell aktualisiert werden RFs können, RCFs wurden Variablen in der Baumkonstruktion verwendet, die so konzipiert wurden, dass sie inkrementelle Aktualisierungen ermöglichen. 

Als unbeaufsichtigter Algorithmus verwendet RCF die Cluster-Analyse, um Spitzen in Zeitseriendaten, Periodizitätsunterbrechungen oder Saisonabhängigkeiten sowie Datenpunktausnahmen zu erkennen. Random Cut Forests kann als Synopse oder Skizze eines dynamischen Datenstroms (oder einer zeitindizierten Folge von Zahlen) fungieren. Die Antworten auf unsere Fragen zu dem Stream können aus dieser Synopse kommen. Die folgenden Merkmale betreffen den Stream, sowie, wie wir Verbindungen zur Anomalieerkennung und POrognose herstellen.
+ Ein *Streaming-Algorithmus *ist ein Online-Algorithmus mit einem kleinen Speicherbedarf. Ein Online-Algorithmus trifft seine Entscheidung über den Eingabepunkt indiziert nach Zeit **t**, bevor der **(t\$11)-**te Punkt erkannt wird. Der kleine Speicher ermöglicht flexible Algorithmen, die Antworten mit geringer Latenz erzeugen können und ermöglichen, dass ein Benutzer mit den Daten interagiert.
+ Die Einhaltung der von der Zeit verhängten Anordnung ist wie in einem *Online*-Algorithmus bei der Anomalieerkennung und bei Prognosen erforderlich. Wenn wir bereits wissen, was übermorgen passieren wird, dann ist die Vorhersage, was morgen passiert, keine Prognose, sondern lediglich die Interpolation eines unbekannten fehlenden Werts. Ebenso kann ein neues Produkt, das heute eingeführt wird, eine Anomalie sein, jedoch ist es am Ende des nächsten Quartals vielleicht keine Anomalie mehr. 

# Wie RCF zum Erkennen von Anomalien angewendet wird
<a name="how-does-rcf-detect-anomalies"></a>

Ein Mensch kann ganz einfach einen Datenpunkt unterscheiden, der sich von den übrigen Daten abhebt. RCF macht es ähnlich, indem eine „Gesamtstruktur“ („Wald“) von Entscheidungsstrukturen erstellt und anschließend überwacht wird, wie neue Datenpunkte die Gesamtstruktur ändern. 

Eine *anomaly* (Anomalie) ist ein Datenpunkt, der Ihre Aufmerksamkeit von normalen Punkten ablenkt – denken sie an ein Image einer roten Blume in einem Feld von gelben Blumen. Diese „Verschiebung der Aufmerksamkeit“ ist in der (erwarteten) Position einer Struktur (d. h., einem Modell in RCF) kodiert, die vom Eingabepunkt belegt wird. Ziel ist es, eine Gesamtstruktur zu erstellen, wobei jede Entscheidungsstruktur aus einer Partition der Daten entsteht, die für die Schulung des Algorithmus gesampelt werden. Technisch ausgedrückt erstellt jede Struktur eine bestimmte Art von binärer Struktur der Speicherpartitionierung für die Stichproben. Während Amazon Quick Sight die Daten abtastet, weist RCF jedem Datenpunkt einen Anomalie-Score zu. Es vergibt höhere Bewertungen an Datenpunkte, die anomal aussehen. Die Bewertung ist annähernd umgekehrt proportional zur resultierenden Tiefe des Punkts in der Struktur. Random Cut Forest weist die Anomaliebewertung durch Berechnung der durchschnittlichen Bewertung jeder einzelnen Struktur und Skalierung des Ergebnisses unter Berücksichtigung der Stichprobengröße zu. 

Die Stimmen oder Bewertungen der verschiedenen Modelle werden aggregiert, da jedes der Modelle selbst eine schwache Prognosekraft ist. Amazon Quick Sight identifiziert einen Datenpunkt als ungewöhnlich, wenn sich sein Wert deutlich von den aktuellen Punkten unterscheidet. Was als Anomalie gilt, hängt von der Anwendung ab. 

Der paper [Random Cut Forest Based Anomaly Detection On Streams](http://proceedings.mlr.press/v48/guha16.pdf) bietet mehrere Beispiele für diese state-of-the-art Online-Anomalieerkennung (Zeitreihenanomalieerkennung). RCFswerden für zusammenhängende Datensegmente oder „Schindeln“ von Daten verwendet, wobei die Daten im unmittelbaren Segment als Kontext für das jüngste Segment dienen. Vorherige Versionen von RCF-basierten Algorithmen der Anomalieerkennungs bewerten einen ganzen Shingle. Der Algorithmus in Amazon Quick Sight liefert auch eine ungefähre Position der Anomalie im aktuellen erweiterten Kontext. Diese ungefähre Position kann in dem Szenario nützlich sein, in dem es zur Verzögerung für die Erkennung der Anomalie kommt. Verzögerungen treten auf, da jeder Algorithmus "vorher gesehene Abweichungen" in "anomale Abweichungen" kennzeichnen muss, die sich über einen Zeitraum ergeben können. 

# Wie RCF zum Generieren von Prognosen angewendet wird
<a name="how-does-rcf-generate-forecasts"></a>

Um den nächsten Wert in einer stationären Zeitsequenz zu prognostizieren, beantwortet der RCF-Algorithmus die Frage: "Was wäre die wahrscheinlichste Fertigstellung, nachdem wir einen als Kandidat identifizierten Wert haben?" Er verwendet eine einzelne Struktur in RCF, um die Suche nach dem besten Kandidaten zu starten. Die Kandidaten in verschiedenen Strukturen werden aggregiert, da jede Struktur selbst eine schwache Prognosekraft ist. Die Aggregation ermöglicht auch die Erzeugung von Quantilfehlern. Dieser Vorgang wird **t**-Mal wiederholt, um den **t**(s)-ten Wert zu prognostizieren. 

Der Algorithmus in Amazon Quick Sight heißt *BIFOCAL*. Er verwendet zwei RCFs, um eine CALibrated FOrest BI-Architektur zu erstellen. Der erste RCF wird verwendet, um Anomalien herauszufiltern und eine schwache Prognose zu liefern, die vom zweiten korrigiert wird. Insgesamt ermöglicht dieser Ansatz deutlich robustere Prognosen im Vergleich zu anderen allgemein verfügbaren Algorithmen wie ETS. 

Die Anzahl der Parameter im Amazon Quick Sight-Prognosealgorithmus ist deutlich geringer als bei anderen allgemein verfügbaren Algorithmen. Auf diese Weise kann er direkt ohne menschliche Anpassung für eine größere Anzahl von Zeitreihendatenpunkten nützlich sein. Da sich in einer bestimmten Zeitreihe mehr Daten ansammeln, können sich die Prognosen in Amazon Quick Sight an Datenverschiebungen und Musteränderungen anpassen. Für Zeitreihen, die Trends anzeigen, wird die Trendermittlung zuerst durchgeführt, um die Reihe stationär zu machen. Die Prognose der stationären Sequenz wird mit dem Trend zurück projiziert. 

Da sich der Algorithmus auf einen effizienten Online-Algorithmus (RCF) stützt, kann er interaktive "Was wäre, wenn"-Abfragen unterstützen. In diesen können einige der Prognosen geändert und als Hypothesen behandelt werden, um bedingte Prognosen zu liefern. Dies ist der Ursprung der Möglichkeit zum Untersuchen von „Was wäre, wenn“-Szenarien während der Analyse. 

# Referenzen für Machine Learning und RCF
<a name="learn-more-about-machine-learning-and-rcf"></a>

Für weitere Informationen über Machine Learning und diesen Algorithmus empfehlen wir Ihnen die folgenden Ressourcen:
+ Der Artikel [Robust Random Cut Forest (RRCF): Eine Nicht-mathematische Erläuterung](https://www.linkedin.com/pulse/robust-random-cut-forest-rrcf-math-explanation-logan-wilt/) bietet eine klare Erklärung ohne die mathematischen Gleichungen. 
+ Das Buch [*The Elements of Statistical Learning: Data Mining, Inference, and Prediction*, Second Edition (Springer Series in Statistics)](https://www.amazon.com/Elements-Statistical-Learning-Prediction-Statistics/dp/0387848576) stellt eine umfassende Grundlage für Machine Learning bereit. 
+ [http://proceedings.mlr.press/v48/guha16.pdf](http://proceedings.mlr.press/v48/guha16.pdf), eine akademische Abhandlung, die tief in die Feinheiten der Anomalieerkennung und der Prognose eindringt, mit Beispielen. 

Ein anderer Ansatz für RCF zeigt sich in anderen AWS Diensten. Wenn Sie wissen möchten, wie RCF in anderen Services verwendet wird, vgl.:
+ *Amazon Managed Service für Apache Flink SQL-Referenz:* [https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest-with-explanation.html](https://docs.aws.amazon.com/kinesisanalytics/latest/sqlref/sqlrf-random-cut-forest-with-explanation.html)
+ * SageMaker Amazon-Entwicklerhandbuch:* [Random Cut Forest (RCF) -Algorithmus](https://docs.aws.amazon.com/sagemaker/latest/dg/randomcutforest.html). Dieser Ansatz wird auch in [The Random Cut Forest Algorithm](https://freecontent.manning.com/the-randomcutforest-algorithm/), einem Kapitel in [Machine Learning for Business](https://www.amazon.com/Machine-Learning-Business-Doug-Hudgeon/dp/1617295833/ref=sr_1_3) (Oktober 2018) erklärt. 