ColumnDataType
Verifica se os valores em uma determinada coluna podem ser convertidos no Apache Spark para o tipo fornecido. Aceita uma expressão with threshold
para verificar um subconjunto dos valores da coluna.
Sintaxe
ColumnDataType
<COL_NAME>
=<EXPECTED_TYPE>
COL_NAME: o nome da coluna em relação à qual você deseja avaliar a regra de qualidade de dados.
Tipos de coluna compatíveis: string
Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto
EXPECTED_TYPE: o tipo esperado dos valores da coluna.
Valores compatíveis: booleano, data, timestamp, inteiro, duplo, flutuante, longo
Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto
EXPRESSION: uma expressão opcional para especificar a porcentagem de valores que devem ser do tipo esperado.
Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto
Exemplo: números inteiros do tipo de dados da coluna como strings
O exemplo de regra a seguir verifica se os valores na coluna indicada, que é do tipo string, podem ser números inteiros.
ColumnDataType "colA" = "INTEGER"
Exemplo: números inteiros do tipo de dados da coluna como strings verificam um subconjunto dos valores
O exemplo de regra a seguir verifica se mais de 90% dos valores na coluna indicada, que é do tipo string, podem ser números inteiros.
ColumnDataType "colA" = "INTEGER" with threshold > 0.9