ColumnDataType
Überprüft, ob die Werte in einer bestimmten Spalte in Apache Spark in den bereitgestellten Typ umgewandelt werden können. Akzeptiert einen with threshold-Ausdruck zur Prüfung auf eine Teilmenge der Werte in der Spalte.
Syntax
ColumnDataType<COL_NAME>=<EXPECTED_TYPE>
COL_NAME – Der Name der Spalte, anhand der Sie die Datenqualitätsregel auswerten möchten.
Unterstützte Spaltentypen: Zeichenfolgentyp
Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz
EXPECTED_TYPE – Der erwartete Typ der Werte in der Spalte.
Unterstützte Werte: Boolean, Date, Timestamp, Integer, Double, Float, Long
Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz
EXPRESSION – Ein optionaler Ausdruck zur Angabe des Prozentsatzes der Werte, die vom erwarteten Typ sein sollen.
Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz
Beispiel: Spaltendatentyp-Ganzzahlen als Zeichenfolgen
Die folgende Beispielregel prüft, ob die Werte in der angegebenen Spalte, die vom Typ Zeichenfolge ist, in Ganzzahlen umgewandelt werden können.
ColumnDataType "colA" = "INTEGER"
Beispiel: Spaltendatentyp-Ganzzahlen als Zeichenfolgen prüfen, ob eine Teilmenge der Werte vorhanden ist
Die folgende Beispielregel prüft, ob mehr als 90 % der Werte in der angegebenen Spalte, die vom Typ Zeichenfolge ist, in Ganzzahlen umgewandelt werden können.
ColumnDataType "colA" = "INTEGER" with threshold > 0.9