Exemple Output – méthodes –__call__s'appliquent name describeArgs describeReturn describeTransform describeErrors describe

RemoveDuplicates classe

La transformation RemoveDuplicates supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

Exemple


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

Output

Le résultat sera un PySpark DataFrame avec les doublons supprimés en fonction de la source_column_1 colonne. Le fichier `df_output` qui en résultera DataFrame contiendra les lignes suivantes :


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

Notez que les lignes avec les source_column_1 valeurs « 13.12 » et « null » n'apparaissent qu'une seule fois dans la sortie DataFrame, car les doublons ont été supprimés en fonction de la colonne. source_column_1

call(spark_context, data_frame, source_column)

La transformation RemoveDuplicates supprime une ligne entière si une valeur dupliquée est détectée dans une colonne source sélectionnée.

source_column : nom d’une colonne existante.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

FlagDuplicateRows

MonthName