Beispiel Ausgabe – Methoden –__call__apply Name describeArgs describeReturn describeTransform describeErrors Beschreiben

RemoveDuplicates Klasse

Die Transformation RemoveDuplicates und löscht eine ganze Zeile, wenn in einer ausgewählten Quellspalte ein doppelter Wert gefunden wird.

Beispiel


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.RemoveDuplicates.apply(
        data_frame=input_df,
        spark_context=sc,
        source_column="source_column_1"
    )
except:
    print("Unexpected Error happened ")
    raise

Ausgabe

Die Ausgabe wird a sein, PySpark DataFrame wobei Duplikate basierend auf der source_column_1 Spalte entfernt werden. Das resultierende `df_output` DataFrame wird die folgenden Zeilen enthalten:


```
+---------------+---------------+
|source_column_1|source_column_2|
+---------------+---------------+
| 105.111| 13.12|
| 13.12| 13.12|
| null| 13.12|
+---------------+---------------+
```

Beachten Sie, dass die Zeilen mit den source_column_1 Werten `13.12` und `null` in der Ausgabe nur einmal vorkommen DataFrame, da die Duplikate anhand der Spalte entfernt wurden. source_column_1

call(spark_context, data_frame, source_column)

Die Transformation RemoveDuplicates und löscht eine ganze Zeile, wenn in einer ausgewählten Quellspalte ein doppelter Wert gefunden wird.

source_column – Der Name einer vorhandenen Spalte.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

FlagDuplicateRows

MonthName