ColumnDataType - AWS Glue

ColumnDataType

Comprueba si los valores de una columna determinada se pueden convertir en Apache Spark al tipo proporcionado. Acepta una expresión with threshold para comprobar si hay un subconjunto de los valores en la columna.

Sintaxis

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME: el nombre de la columna con la que quiere evaluar la regla de la calidad de los datos.

    Tipos de columnas compatibles: tipo cadena

    Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto

  • EXPECTED_TYPE: el tipo esperado de los valores en la columna.

    Valores admitidos: booleano, fecha, marca de tiempo, entero, doble, flotante, largo

    Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto

  • EXPRESIÓN: una expresión opcional para especificar el porcentaje de valores que deben ser del tipo esperado.

    Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto

Ejemplo: números enteros del tipo de datos de columna como cadenas

La siguiente regla de ejemplo comprueba si los valores de la columna dada, que es de tipo cadena, pueden convertirse a enteros.

ColumnDataType "colA" = "INTEGER"

Ejemplo: los números enteros del tipo de datos de las columnas como cadenas comprueban un subconjunto de los valores

La siguiente regla de ejemplo comprueba si más del 90 % de los valores de la columna dada, que es de tipo cadena, pueden convertirse a enteros.

ColumnDataType "colA" = "INTEGER" with threshold > 0.9