Classe RemoveDuplicates - AWS Glue

Classe RemoveDuplicates

La trasformazione RemoveDuplicates elimina un'intera riga se viene rilevato un valore duplicato in una colonna di origine selezionata.

Esempio

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise

Output

L'output sarà un DataFrame PySpark con i duplicati rimossi in base alla colonna source_column_1. Il DataFrame `df_output` risultante conterrà le seguenti righe:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```

Notare che le righe con i valori source_column_1 `13.12` e `null` appaiono solo una volta nel DataFrame di output, poiché i duplicati sono stati rimossi in base alla colonna source_column_1.

Metodi

__call__(spark_context, data_frame, source_column)

La trasformazione RemoveDuplicates elimina un'intera riga se viene rilevato un valore duplicato in una colonna di origine selezionata.

  • source_column: il nome di una colonna esistente.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.