Classe FillWithMode
La transformation FillWithMode met en forme une colonne en fonction du format de numéro de téléphone que vous spécifiez. Vous pouvez également définir une logique de disjoncteur de lien, dans laquelle certaines valeurs sont identiques. Prenons l’exemple des valeurs suivantes : 1 2 2 3 3 4.
Une valeur modeType de MINIMUM entraîne le renvoi par FillWithMode de 2 comme valeur de mode. Si la valeur modeType est définie sur MAXIMUM, le mode est 3. Pour AVERAGE le mode est 2,5.
exemple
from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise
Sortie
La sortie du code donné sera :
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```
La transformation FillWithMode du module `awsglue.data_quality` est appliquée au DataFrame `input_df`. Elle remplace les valeurs `null` de la colonne source_column_1 par la valeur maximale (`mode_type="MAXIMUM"`) parmi les valeurs non nulles de cette colonne.
Dans ce cas, la valeur maximale de la colonne source_column_1 est `1 055,123`. Par conséquent, les valeurs `null` dans source_column_1 sont remplacées par `1 055,123` dans le DataFrame de sortie `df_output`.
Méthodes
__call__(spark_context, data_frame, source_column, mode_type)
La transformation FillWithMode met en forme la casse des chaînes dans une colonne.
-
source_column: nom d’une colonne existante. -
mode_type: comment résoudre les valeurs à égalité dans les données. Cette valeur doit être l’une des valeurs suivantes :MINIMUM,NONE,AVERAGEouMAXIMUM.
apply(cls, *args, **kwargs)
Hérité de GlueTransform s'appliquent.
name(cls)
Hérité de GlueTransform name.
describeArgs(cls)
Hérité de GlueTransform describeArgs.
describeReturn(cls)
Hérité de GlueTransform describeReturn.
describeTransform(cls)
Hérité de GlueTransform describeTransform.
describeErrors(cls)
Hérité de GlueTransform describeErrors.
describe(cls)
Hérité de GlueTransform describe.