ColumnDataType
Comprueba si los valores de una columna determinada se pueden convertir en Apache Spark al tipo proporcionado. Acepta una expresión with threshold
para comprobar si hay un subconjunto de los valores en la columna.
Sintaxis
ColumnDataType
<COL_NAME>
=<EXPECTED_TYPE>
COL_NAME: el nombre de la columna con la que quiere evaluar la regla de la calidad de los datos.
Tipos de columnas compatibles: tipo cadena
Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto
EXPECTED_TYPE: el tipo esperado de los valores en la columna.
Valores admitidos: booleano, fecha, marca de tiempo, entero, doble, flotante, largo
Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto
EXPRESIÓN: una expresión opcional para especificar el porcentaje de valores que deben ser del tipo esperado.
Tipos de columnas compatibles: byte, decimal, doble, flotante, entero, largo, corto
Ejemplo: números enteros del tipo de datos de columna como cadenas
La siguiente regla de ejemplo comprueba si los valores de la columna dada, que es de tipo cadena, pueden convertirse a enteros.
ColumnDataType "colA" = "INTEGER"
Ejemplo: los números enteros del tipo de datos de las columnas como cadenas comprueban un subconjunto de los valores
La siguiente regla de ejemplo comprueba si más del 90 % de los valores de la columna dada, que es de tipo cadena, pueden convertirse a enteros.
ColumnDataType "colA" = "INTEGER" with threshold > 0.9