Classe FlagDuplicatesInColumn - AWS Glue

Classe FlagDuplicatesInColumn

La trasformazione FlagDuplicatesInColumn restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la il valore nella colonna di origine di tale riga corrisponde a un valore in una riga precedente della colonna di origine. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.

Esempio

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Output

La trasformazione FlagDuplicatesInColumn aggiungerà una nuova colonna `flag_col` al DataFrame `df_output`. Questa colonna conterrà una valore di stringa che indica se per la riga corrispondente è presente o meno un valore duplicato nella colonna `city`. Se per una riga è presente un valore `city` duplicato, `flag_col` conterrà il valore `true_string` “True”. Se per una riga è presente un valore `city` univoco, `flag_col` conterrà il valore `false_string` “False”.

Il DataFrame `df_output` risultante conterrà tutte le colonne del DataFrame originale `datasource1`, più la colonna aggiuntiva `flag_col` che indica i valori `city` duplicati.

Metodi

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

La trasformazione FlagDuplicatesInColumn restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la il valore nella colonna di origine di tale riga corrisponde a un valore in una riga precedente della colonna di origine. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.

  • source_column: nome della colonna di origine.

  • target_column: nome della colonna di destinazione.

  • true_string: stringa da inserire nella colonna di destinazione quando per un valore della colonna di origine è presente un duplicato di un valore precedente in tale colonna.

  • false_string: stringa da inserire nella colonna di destinazione quando un valore della colonna di origine è diverso dai valori precedenti in tale colonna.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.