ColumnDataType - AWS Glue

ColumnDataType

特定の列の値を Apache Spark で指定されたタイプにキャストできるかどうかを確認します。with threshold 式を承諾し、列内の値のサブセットをチェックします。

[Syntax] (構文)

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_NAME – データ品質ルールを評価する対象となる列の名前。

    サポートされている列の型: String 型

    列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)

  • EXPECTED_TYPE — 列内の想定されている値の型。

    サポートされている値: Boolean、Date、Timestamp、Integer、Double、Float、Long

    列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)

  • EXPRESSION – 想定されている型の、値の割合を指定するオプションの式。

    列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)

例: 文字列としての、列データ型の整数。

次のルール例では、所定の列の値 (string 型) が整数としてキャストできるかどうかを確認します。

ColumnDataType "colA" = "INTEGER"

例: 文字列としての列データ型の整数が、値のサブセットをチェックします。

次のルール例は、所定の列の値 (string 型) の 90% 以上が整数としてキャストできるかどうかを確認します。

ColumnDataType "colA" = "INTEGER" with threshold > 0.9