Esempio Output - metodi -__call__apply name describeArgs describeReturn describeTransform describeErrors describe

Classe FlagDuplicatesInColumn

La trasformazione FlagDuplicatesInColumn restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la il valore nella colonna di origine di tale riga corrisponde a un valore in una riga precedente della colonna di origine. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.

Esempio


from pyspark.context import SparkContext
from pyspark.sql import SparkSession      
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")

try:
    df_output = column.FlagDuplicatesInColumn.apply(
        data_frame=datasource1,
        spark_context=sc,
        source_column="city",
        target_column="flag_col",
        true_string="True",
        false_string="False"
    )
except:
    print("Unexpected Error happened ")
    raise

Output

La trasformazione FlagDuplicatesInColumn aggiungerà una nuova colonna `flag_col` al DataFrame `df_output`. Questa colonna conterrà una valore di stringa che indica se per la riga corrispondente è presente o meno un valore duplicato nella colonna `city`. Se per una riga è presente un valore `city` duplicato, `flag_col` conterrà il valore `true_string` “True”. Se per una riga è presente un valore `city` univoco, `flag_col` conterrà il valore `false_string` “False”.

Il DataFrame `df_output` risultante conterrà tutte le colonne del DataFrame originale `datasource1`, più la colonna aggiuntiva `flag_col` che indica i valori `city` duplicati.

call(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

source_column: nome della colonna di origine.
target_column: nome della colonna di destinazione.
true_string: stringa da inserire nella colonna di destinazione quando per un valore della colonna di origine è presente un duplicato di un valore precedente in tale colonna.
false_string: stringa da inserire nella colonna di destinazione quando un valore della colonna di origine è diverso dai valori precedenti in tale colonna.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

UnnestFrame

FormatPhoneNumber