ColumnDataType - AWS Glue

ColumnDataType

Verifica se os valores em uma determinada coluna podem ser convertidos no Apache Spark para o tipo fornecido. Aceita uma expressão with threshold para verificar um subconjunto dos valores da coluna.

Sintaxe

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME: o nome da coluna em relação à qual você deseja avaliar a regra de qualidade de dados.

    Tipos de coluna compatíveis: string

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

  • EXPECTED_TYPE: o tipo esperado dos valores da coluna.

    Valores compatíveis: booleano, data, timestamp, inteiro, duplo, flutuante, longo

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

  • EXPRESSION: uma expressão opcional para especificar a porcentagem de valores que devem ser do tipo esperado.

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

Exemplo: números inteiros do tipo de dados da coluna como strings

O exemplo de regra a seguir verifica se os valores na coluna indicada, que é do tipo string, podem ser números inteiros.

ColumnDataType "colA" = "INTEGER"

Exemplo: números inteiros do tipo de dados da coluna como strings verificam um subconjunto dos valores

O exemplo de regra a seguir verifica se mais de 90% dos valores na coluna indicada, que é do tipo string, podem ser números inteiros.

ColumnDataType "colA" = "INTEGER" with threshold > 0.9