Classe RemoveDuplicates
A transformação RemoveDuplicates exclui uma linha inteira se um valor duplicado é encontrado em uma coluna de origem selecionada.
Exemplo
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.RemoveDuplicates.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1" ) except: print("Unexpected Error happened ") raise
Saída
A saída será um quadro de dados PySpark com duplicatas removidas com base na coluna source_column_1. O DataFrame “df_output” resultante conterá as seguintes linhas:
``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 13.12| 13.12| | null| 13.12| +---------------+---------------+ ```
Observe que as linhas com valores source_column_1 de “13.12” e “null” aparecem apenas uma vez no quadro de dados de saída, pois as duplicatas foram removidas com base na coluna source_column_1.
Métodos
__call__(spark_context, data_frame, source_column)
A transformação RemoveDuplicates exclui uma linha inteira se um valor duplicado é encontrado em uma coluna de origem selecionada.
-
source_column: o nome de uma coluna existente.
aplicar(cls, *args, **kwargs)
Herdado de GlueTransform apply.
name(cls)
Herdado de GlueTransform nome.
describeArgs(cls)
Herdado de GlueTransform describeArgs.
describeReturn(cls)
Herdado de GlueTransform describeReturn.
describeTransform(cls)
Herdado de GlueTransform describeTransform.
describeErrors(cls)
Herdado de GlueTransform describeErrors.
describe(cls)
Herdado de GlueTransform describe.