ColumnDataType
Controlla se i valori in una determinata colonna possono essere trasmessi in Apache Spark nel tipo fornito. Accetta un'espressione with threshold per verificare la presenza di un sottoinsieme di valori nella colonna.
Sintassi
ColumnDataType<COL_NAME>=<EXPECTED_TYPE>
COL_NAME: il nome della colonna in base alla quale si desidera valutare la regola di qualità dei dati.
Tipi di colonne supportati: tipo stringa
Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short
EXPECTED_TYPE: il tipo di valori previsto nella colonna.
Valori supportati: Boolean, Date, Timestamp, Integer, Double, Float, Long
Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short
EXPRESSION: un'espressione facoltativa per specificare la percentuale di valori che devono essere del tipo previsto.
Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short
Esempio: il tipo di dato nella colonna rappresentato come stringa è intero
La seguente regola di esempio verifica se i valori nella colonna specificata, che è di tipo stringa, possono essere convertiti in numeri interi.
ColumnDataType "colA" = "INTEGER"
Esempio: verifica di un sottoinsieme dei valori delle colonne, di tipo intero ma rappresentati come stringhe
La seguente regola di esempio verifica se più del 90% dei valori nella colonna data, che è di tipo stringa, possono essere convertiti in numeri interi.
ColumnDataType "colA" = "INTEGER" with threshold > 0.9