ColumnDataType
特定の列の値を Apache Spark で指定されたタイプにキャストできるかどうかを確認します。with threshold
式を承諾し、列内の値のサブセットをチェックします。
[Syntax] (構文)
ColumnDataType
<COL_NAME>
=<EXPECTED_TYPE>
COL_NAME – データ品質ルールを評価する対象となる列の名前。
サポートされている列の型: String 型
列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)
EXPECTED_TYPE — 列内の想定されている値の型。
サポートされている値: Boolean、Date、Timestamp、Integer、Double、Float、Long
列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)
EXPRESSION – 想定されている型の、値の割合を指定するオプションの式。
列でサポートされている型: Byte (バイト)、Decimal (十進数)、Double (倍精度浮動小数点数)、Float (浮動小数点数)、Integer (整数)、Long (整数)、Short (整数)
例: 文字列としての、列データ型の整数。
次のルール例では、所定の列の値 (string 型) が整数としてキャストできるかどうかを確認します。
ColumnDataType "colA" = "INTEGER"
例: 文字列としての列データ型の整数が、値のサブセットをチェックします。
次のルール例は、所定の列の値 (string 型) の 90% 以上が整数としてキャストできるかどうかを確認します。
ColumnDataType "colA" = "INTEGER" with threshold > 0.9