Entropie - AWS Glue

Entropie

Prüft, ob der Entropie-Wert einer Spalte mit einem bestimmten Ausdruck übereinstimmt. Die Entropie misst den Informationsgehalt, der in einer Nachricht enthalten ist. Bei gegebener Wahrscheinlichkeitsverteilung über Werte in einer Spalte beschreibt die Entropie, wie viele Bits benötigt werden, um einen Wert zu identifizieren.

Syntax

Entropy <COL_NAME> <EXPRESSION>
  • COL_NAME – Der Name der Spalte, anhand der Sie die Datenqualitätsregel auswerten möchten.

    Unterstützte Spaltentypen: Jeder Spaltentyp

  • AUSDRUCK – Ein Ausdruck, der für die Antwort des Regeltyps ausgeführt wird, um einen booleschen Wert zu erzeugen. Weitere Informationen finden Sie unter Ausdrücke.

Beispiel: Spaltenentropie

Die folgende Beispielregel prüft, ob die Spalte mit dem Namen Feedback einen Entropiewert größer als eins hat.

Entropy "Star_Rating" > 1 Entropy "First_Name" > 1 where "Customer_ID < 10"

Beispiel für dynamische Regeln

  • Entropy "colA" < max(last(10))

  • Entropy "colA" between min(last(10)) and max(last(10))