Classe FillWithMode - AWS Glue

Classe FillWithMode

La transformation FillWithMode met en forme une colonne en fonction du format de numéro de téléphone que vous spécifiez. Vous pouvez également définir une logique de disjoncteur de lien, dans laquelle certaines valeurs sont identiques. Prenons l’exemple des valeurs suivantes : 1 2 2 3 3 4.

Une valeur modeType de MINIMUM entraîne le renvoi par FillWithMode de 2 comme valeur de mode. Si la valeur modeType est définie sur MAXIMUM, le mode est 3. Pour AVERAGE le mode est 2,5.

exemple

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

Sortie

La sortie du code donné sera :

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

La transformation FillWithMode du module `awsglue.data_quality` est appliquée au DataFrame `input_df`. Elle remplace les valeurs `null` de la colonne source_column_1 par la valeur maximale (`mode_type="MAXIMUM"`) parmi les valeurs non nulles de cette colonne.

Dans ce cas, la valeur maximale de la colonne source_column_1 est `1 055,123`. Par conséquent, les valeurs `null` dans source_column_1 sont remplacées par `1 055,123` dans le DataFrame de sortie `df_output`.

Méthodes

__call__(spark_context, data_frame, source_column, mode_type)

La transformation FillWithMode met en forme la casse des chaînes dans une colonne.

  • source_column : nom d’une colonne existante.

  • mode_type : comment résoudre les valeurs à égalité dans les données. Cette valeur doit être l’une des valeurs suivantes : MINIMUM, NONE, AVERAGE ou MAXIMUM.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.