Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
RemoveDuplicates kelas
RemoveDuplicatesTransformasi menghapus seluruh baris, jika nilai duplikat ditemui di kolom sumber yang dipilih.
Contoh
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Output
Outputnya akan a PySpark DataFrame dengan duplikat dihapus berdasarkan source_column_1 kolom. Hasil `df_output` DataFrame akan berisi baris berikut:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Perhatikan bahwa baris dengan source_column_1 nilai `13.12` dan `null` hanya muncul sekali dalam output DataFrame, karena duplikat telah dihapus berdasarkan kolom. source_column_1
Metode
__call__ (spark_context, data_frame, source_column)
RemoveDuplicatesTransformasi menghapus seluruh baris, jika nilai duplikat ditemui di kolom sumber yang dipilih.
-
source_column— Nama kolom yang ada.
apply(cls, *args, **kwargs)
Warisan dari GlueTransform apply.
name(cls)
Warisan dari GlueTransform name.
describeArgs(cls)
Warisan dari GlueTransform describeArgs.
describeReturn(cls)
Warisan dari GlueTransform describeReturn.
describeTransform(cls)
Warisan dari GlueTransform describeTransform.
describeErrors(cls)
Warisan dari GlueTransform describeErrors.
describe(cls)
Warisan dari GlueTransform describe.