ColumnDataType - AWS Glue

ColumnDataType

Controlla se i valori in una determinata colonna possono essere trasmessi in Apache Spark nel tipo fornito. Accetta un'espressione with threshold per verificare la presenza di un sottoinsieme di valori nella colonna.

Sintassi

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME: il nome della colonna in base alla quale si desidera valutare la regola di qualità dei dati.

    Tipi di colonne supportati: tipo stringa

    Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short

  • EXPECTED_TYPE: il tipo di valori previsto nella colonna.

    Valori supportati: Boolean, Date, Timestamp, Integer, Double, Float, Long

    Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short

  • EXPRESSION: un'espressione facoltativa per specificare la percentuale di valori che devono essere del tipo previsto.

    Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short

Esempio: il tipo di dato nella colonna rappresentato come stringa è intero

La seguente regola di esempio verifica se i valori nella colonna specificata, che è di tipo stringa, possono essere convertiti in numeri interi.

ColumnDataType "colA" = "INTEGER"

Esempio: verifica di un sottoinsieme dei valori delle colonne, di tipo intero ma rappresentati come stringhe

La seguente regola di esempio verifica se più del 90% dei valori nella colonna data, che è di tipo stringa, possono essere convertiti in numeri interi.

ColumnDataType "colA" = "INTEGER" with threshold > 0.9