Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Classe FlagDuplicateRows
La transformation FlagDuplicateRows renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente dans le jeu de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L’occurrence initiale n’est pas signalée, car elle ne correspond pas à une ligne précédente.
exemple
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Sortie
La sortie sera un DataFrame PySpark avec une colonne supplémentaire flag_row indiquant si une ligne est un doublon ou non, en fonction de la colonne source_column_1. Le DataFrame `df_output` qui en résulte contiendra les lignes suivantes :
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
La colonne flag_row indique si une ligne est un doublon ou non. La valeur `true_string` est définie sur « True » et `false_string` sur « False ». La valeur `target_index` est définie sur 1, ce qui signifie que la colonne flag_row sera insérée à la deuxième position (index 1) dans le DataFrame de sortie.
Méthodes
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
La transformation FlagDuplicateRows renvoie une nouvelle colonne avec une valeur spécifiée dans chaque ligne qui indique si cette ligne correspond exactement à une ligne précédente dans le jeu de données. Lorsque des correspondances sont trouvées, elles sont signalées comme des doublons. L’occurrence initiale n’est pas signalée, car elle ne correspond pas à une ligne précédente.
-
true_string: valeur à insérer si la ligne correspond à une ligne précédente. -
false_string: valeur à insérer si la ligne est unique. -
target_column: nom de la nouvelle colonne insérée dans le jeu de données.
apply(cls, *args, **kwargs)
Hérité de GlueTransform s'appliquent.
name(cls)
Hérité de GlueTransform name.
describeArgs(cls)
Hérité de GlueTransform describeArgs.
describeReturn(cls)
Hérité de GlueTransform describeReturn.
describeTransform(cls)
Hérité de GlueTransform describeTransform.
describeErrors(cls)
Hérité de GlueTransform describeErrors.
describe(cls)
Hérité de GlueTransform describe.