RemoveDuplicates-Klasse
Die Transformation RemoveDuplicates und löscht eine ganze Zeile, wenn in einer ausgewählten Quellspalte ein doppelter Wert gefunden wird.
Beispiel
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Output
Die Ausgabe wird ein PySpark-DataFrame sein, bei dem Duplikate basierend auf der Spalte source_column_1 entfernt werden. Der resultierende „df_output“-DataFrame enthält die folgenden Zeilen:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Beachten Sie, dass die Zeilen mit den source_column_1-Werten `13.12` und `null` nur einmal im Ausgabe-DataFrame vorkommen, da die Duplikate basierend auf der Spalte source_column_1 entfernt wurden.
Methoden
__call__(spark_context, data_frame, source_column)
Die Transformation RemoveDuplicates und löscht eine ganze Zeile, wenn in einer ausgewählten Quellspalte ein doppelter Wert gefunden wird.
-
source_column– Der Name einer vorhandenen Spalte.
apply(cls, *args, **kwargs)
Geerbt von GlueTransform apply.
name(cls)
Geerbt von GlueTransform Name.
describeArgs(cls)
Geerbt von GlueTransform describeArgs.
describeReturn(cls)
Geerbt von GlueTransform describeReturn.
describeTransform(cls)
Geerbt von GlueTransform describeTransform.
describeErrors(cls)
Geerbt von GlueTransform describeErrors.
describe(cls)
Geerbt von GlueTransform Beschreiben.