Konfigurieren der Anomalieerkennung in AWS-Glue-ETL-Aufträgen
Um mit der Erkennung von Anomalien in AWS Glue Studio zu beginnen, öffnen Sie einen AWS-Glue-Studio-Auftrag und klicken Sie auf die Transformation für Bewertung der Datenqualität.
Wenn Sie dieses Feature aktivieren, analysiert AWS Glue Data Quality Ihre Daten im Laufe der Zeit, um Anomalien zu erkennen. AWS Glue Data Quality bietet wertvolle Datenstatistiken und Beobachtungen zu Ihren Daten, sodass Sie bei identifizierten Anomalien Maßnahmen ergreifen können.
Lesen Sie die Dokumentation zur Erkennung von Anomalien, um mehr über die Funktionsweise dieses Features zu erfahren.
Aktivieren der Anomalieerkennung
Sie aktivieren die Anomalieerkennung in AWS Glue Studio wie folgt:
-
Wählen Sie in Ihrem Auftrag den Knoten Datenqualität und anschließend die Registerkarte Anomalieerkennung aus. Schalten Sie diese Option ein, um Anomalieerkennung aktivieren zu aktivieren.
-
Legen Sie fest, welche Daten auf Anomalien überwacht werden sollen, indem Sie Analysator hinzufügen auswählen. Es gibt zwei Felder, die Sie ausfüllen können: „Statistiken“ und „Daten“.
-
Statistiken sind Informationen über die Form und andere Eigenschaften Ihrer Daten. Sie können eine oder mehrere Statistiken oder die Option Alle Statistiken auswählen. Zu den Statistiken gehören die Werte Completeness, Uniqueness, Mean, Sum, StandardDeviation, Entropy, DistinctValuesCount, UniqueValueRatio und weitere. Weitere Details finden Sie in der Analysatoren-Dokumentation.
-
Daten bezieht sich auf die Spalten in Ihrem Datensatz. Sie können alle oder einzelne Spalten auswählen.
-
-
Wählen Sie Anomalieerkennungsbereich hinzufügen aus, um die Änderungen zu speichern. Nachdem Sie Analysatoren hinzugefügt haben, können Sie sie im Abschnitt Anomalieerkennungsbereich sehen.
Sie können Ihre Analysatoren auch über das Aktionsmenü bearbeiten oder die Registerkarte Regelsatz-Editor auswählen und sie direkt im Notizblock des Regelsatz-Editors bearbeiten. Sie sehen die gespeicherten Analysatoren direkt unter den Regeln, die Sie erstellt haben.
Rules = [ ] Analyzers = [ Completeness “id” ]
Sobald der aktualisierte Regelsatz und die Analysatoren konfiguriert sind, überwacht AWS Glue Data Quality kontinuierlich eingehende Datenströme. Je nach Ihren Einstellungen kann die Anwendung potenzielle Anomalien durch Warnmeldungen oder Auftragsstopps signalisieren. Diese proaktive Überwachung hilft dabei, die Datenqualität und Integrität Ihrer gesamten Datenpipeline sicherzustellen.
Im nächsten Abschnitt wird beschrieben, wie Sie die vom System identifizierten Anomalien effektiv überwachen können. Sie erfahren auch, wie Sie die von AWS Glue Data Quality gesammelten Datenstatistiken anzeigen und analysieren können. Darüber hinaus erfahren Sie, wie Sie Feedback zu dem Machine-Learning-Modell geben können, das das Feature zur Erkennung von Anomalien unterstützt. Diese Feedback-Schleife ist entscheidend, um die Genauigkeit des Modells zu verbessern und sicherzustellen, dass die Anwendung Anomalien gemäß Ihren spezifischen Geschäftsanforderungen und Datenmustern effektiv erkennen kann.