Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
FlagDuplicateRows-Klasse
Die FlagDuplicateRows-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
Beispiel
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (13.12, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FlagDuplicateRows.apply( data_frame=input_df, spark_context=sc, target_column="flag_row", true_string="True", false_string="False", target_index=1 ) except: print("Unexpected Error happened ") raise
Output
Die Ausgabe ist ein Python-Spark-Datenrahmen mit einer zusätzlichen Spalte flag_row, die anhand der Spalte source_column_1 angibt, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. Der resultierende „df_output“-Datenrahmen enthält die folgenden Zeilen:
``` +---------------+---------------+--------+ |source_column_1|source_column_2|flag_row| +---------------+---------------+--------+ | 105.111| 13.12| False| | 13.12| 13.12| True| | null| 13.12| True| | 13.12| 13.12| True| | null| 13.12| True| +---------------+---------------+--------+ ```
Die flag_row-Spalte gibt an, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. „true_string“ ist auf „True“ gesetzt und „false_string“ ist auf „False“ gesetzt. „target_index“ ist auf 1 gesetzt, was bedeutet, dass die flag_row-Spalte an der zweiten Position (Index 1) im Ausgabe-Datenrahmen eingefügt wird.
Methoden
__call__(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)
Die FlagDuplicateRows-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.
-
true_string– Wert, der eingefügt werden soll, wenn die Zeile mit einer früheren Zeile übereinstimmt. -
false_string– Wert, der eingefügt werden soll, wenn die Zeile eindeutig ist. -
target_column– Name der neuen Spalte, die in den Datensatz eingefügt wird.
apply(cls, *args, **kwargs)
Geerbt von GlueTransform apply.
name(cls)
Geerbt von GlueTransform Name.
describeArgs(cls)
Geerbt von GlueTransform describeArgs.
describeReturn(cls)
Geerbt von GlueTransform describeReturn.
describeTransform(cls)
Geerbt von GlueTransform describeTransform.
describeErrors(cls)
Geerbt von GlueTransform describeErrors.
describe(cls)
Geerbt von GlueTransform Beschreiben.