Esempio Output - metodi -__call__apply nome describeArgs describeReturn describeTransform describeErrors describe

Classe FlagDuplicateRows

La trasformazione FlagDuplicateRows restituisce una nuova colonna che contiene un valore specificato in ogni riga che indica se la stessa corrisponde esattamente a una riga precedente nel set di dati. Quando vengono trovate corrispondenze, i valori vengono contrassegnati come duplicati. L'occorrenza iniziale non viene contrassegnata poiché non corrisponde a una riga precedente.

Esempio


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.FlagDuplicateRows.apply(
        data_frame=input_df,
        spark_context=sc,
        target_column="flag_row",
        true_string="True",
        false_string="False",
        target_index=1
    )
except:
    print("Unexpected Error happened ")
    raise

Output

L'output sarà un DataFrame PySpark con una colonna flag_row aggiuntiva che indica se una riga è duplicata o meno in base alla colonna source_column_1. Il DataFrame `df_output` risultante conterrà le seguenti righe:


```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```

La colonna flag_row indica se una riga è duplicata o meno. Il valore di `true_string` è impostato su “True” e quello di `false_string` su “False”. Il valore di `target_index` è impostato su 1, a indicare che la colonna flag_row verrà inserita nella seconda posizione (indice 1) nel DataFrame di output.

call(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)

true_string: valore da inserire se la riga corrisponde a una riga precedente.
false_string: valore da inserire se la riga è univoca.
target_column: nome della nuova colonna inserita nel set di dati.

apply(cls, *args, **kwargs)

Ereditato da GlueTransform apply.

name(cls)

Ereditato da GlueTransform nome.

describeArgs(cls)

Ereditato da GlueTransform describeArgs.

describeReturn(cls)

Ereditato da GlueTransform describeReturn.

describeTransform(cls)

Ereditato da GlueTransform describeTransform.

describeErrors(cls)

Ereditato da GlueTransform describeErrors.

describe(cls)

Ereditato da GlueTransform describe.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

FillWithMode

RemoveDuplicates