StandardDeviation - AWS Glue

StandardDeviation

Prüft die Standardabweichung aller Werte in einer Spalte anhand eines bestimmten Ausdrucks.

Syntax

StandardDeviation <COL_NAME> <EXPRESSION>
  • COL_NAME – Der Name der Spalte, anhand der Sie die Datenqualitätsregel auswerten möchten.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • AUSDRUCK – Ein Ausdruck, der für die Antwort des Regeltyps ausgeführt wird, um einen booleschen Wert zu erzeugen. Weitere Informationen finden Sie unter Ausdrücke.

Example: Standardabweichung

Die folgende Beispielregel prüft, ob die Standardabweichung der Werte in einer Spalte mit dem Namen colA kleiner als ein bestimmter Wert ist.

StandardDeviation "Star_Rating" < 1.5 StandardDeviation "Salary" < 3500 where "Customer_ID < 10"

Beispiel für dynamische Regeln

  • StandardDeviation "colA" > avg(last(10) + 0.1

  • StandardDeviation "colA" between min(last(10)) - 1 and max(last(10)) + 1

Nullverhalten

Die StandardDeviation-Regel ignoriert Zeilen mit NULL-Werten bei der Berechnung der Standardabweichung. Zum Beispiel:

+---+-----------+-----------+ |id |units1 |units2 | +---+-----------+-----------+ |100|0 |0 | |101|null |0 | |102|20 |20 | |103|null |0 | |104|40 |40 | +---+-----------+-----------+

Bei der Standardabweichung von Spalte units1 werden die Zeilen 101 und 103 nicht berücksichtigt und das Ergebnis ist 16,33. Die Standardabweichung für Spalte units2 ist 16.