Classe RemoveDuplicates - AWS Glue

Classe RemoveDuplicates

La transformation RemoveDuplicates supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

exemple

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

Sortie

La sortie sera un DataFrame PySpark dont les doublons seront supprimés en fonction de la colonne source_column_1. Le DataFrame `df_output` qui en résulte contiendra les lignes suivantes :

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

Notez que les lignes avec les valeurs source_column_1 `13.12` et `null` n’apparaissent qu’une seule fois dans le DataFrame de sortie, car les doublons ont été supprimés en fonction de la colonne source_column_1.

Méthodes

__call__(spark_context, data_frame, source_column)

La transformation RemoveDuplicates supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

  • source_column : nom d’une colonne existante.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.