Mean - AWS Glue

Mean

Vérifie si la moyenne de toutes les valeurs d’une colonne correspond à une expression donnée.

Syntaxe

Mean <COL_NAME> <EXPRESSION>
  • COL_NAME – Nom de la colonne par rapport à laquelle la règle de qualité des données doit être évaluée.

    Types de colonnes pris en charge : octet, décimal, double, virgule flottante, entier, long, court

  • EXPRESSION – Expression à exécuter en fonction de la réponse du type de règle afin de produire une valeur booléenne. Pour plus d’informations, consultez Expressions.

Exemple : valeur moyenne

L’exemple de règle suivant vérifie si la moyenne de toutes les valeurs d’une colonne dépasse un seuil.

Mean "Star_Rating" > 3 Mean "Salary" < 6200 where "Customer_ID < 10"

Exemples de règles dynamiques

  • Mean "colA" > avg(last(10)) + std(last(2))

  • Mean "colA" between min(last(5)) - 1 and max(last(5)) + 1

Comportement null

La règle Mean ignorera les lignes contenant des valeurs NULL dans le calcul de la moyenne. Par exemple :

+---+-----------+ |id |units | +---+-----------+ |100|0 | |101|null | |102|20 | |103|null | |104|40 | +---+-----------+

La moyenne de la colonne units sera (0 + 20 + 40) / 3 = 20. Les lignes 101 et 103 ne sont pas prises en compte dans ce calcul.