ColumnDataType - AWS Glue

ColumnDataType

Überprüft, ob die Werte in einer bestimmten Spalte in Apache Spark in den bereitgestellten Typ umgewandelt werden können. Akzeptiert einen with threshold-Ausdruck zur Prüfung auf eine Teilmenge der Werte in der Spalte.

Syntax

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME – Der Name der Spalte, anhand der Sie die Datenqualitätsregel auswerten möchten.

    Unterstützte Spaltentypen: Zeichenfolgentyp

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • EXPECTED_TYPE – Der erwartete Typ der Werte in der Spalte.

    Unterstützte Werte: Boolean, Date, Timestamp, Integer, Double, Float, Long

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

  • EXPRESSION – Ein optionaler Ausdruck zur Angabe des Prozentsatzes der Werte, die vom erwarteten Typ sein sollen.

    Unterstützte Spaltentypen: Byte, Dezimal, Doppelt, Gleitkommazahl, Ganzzahl, Lang, Kurz

Beispiel: Spaltendatentyp-Ganzzahlen als Zeichenfolgen

Die folgende Beispielregel prüft, ob die Werte in der angegebenen Spalte, die vom Typ Zeichenfolge ist, in Ganzzahlen umgewandelt werden können.

ColumnDataType "colA" = "INTEGER"

Beispiel: Spaltendatentyp-Ganzzahlen als Zeichenfolgen prüfen, ob eine Teilmenge der Werte vorhanden ist

Die folgende Beispielregel prüft, ob mehr als 90 % der Werte in der angegebenen Spalte, die vom Typ Zeichenfolge ist, in Ganzzahlen umgewandelt werden können.

ColumnDataType "colA" = "INTEGER" with threshold > 0.9