Beispiel Ausgabe – Methoden –__call__apply Name describeArgs describeReturn describeTransform describeErrors Beschreiben

FlagDuplicateRows Klasse

Die FlagDuplicateRows-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob diese Zeile exakt mit einer früheren Zeile im Datensatz übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.

Beispiel


from pyspark.context import SparkContext
from pyspark.sql import SparkSession
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

input_df = spark.createDataFrame(
    [
        (105.111, 13.12),
        (13.12, 13.12),
        (None, 13.12),
        (13.12, 13.12),
        (None, 13.12),
    ],
    ["source_column_1", "source_column_2"],
)

try:
    df_output = data_quality.FlagDuplicateRows.apply(
        data_frame=input_df,
        spark_context=sc,
        target_column="flag_row",
        true_string="True",
        false_string="False",
        target_index=1
    )
except:
    print("Unexpected Error happened ")
    raise

Ausgabe

Die Ausgabe wird eine PySpark DataFrame mit einer zusätzlichen Spalte seinflag_row, die anhand der Spalte angibt, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. source_column_1 Das resultierende `df_output` DataFrame wird die folgenden Zeilen enthalten:


```
+---------------+---------------+--------+
|source_column_1|source_column_2|flag_row|
+---------------+---------------+--------+
| 105.111| 13.12| False|
| 13.12| 13.12| True|
| null| 13.12| True|
| 13.12| 13.12| True|
| null| 13.12| True|
+---------------+---------------+--------+
```

Die flag_row-Spalte gibt an, ob es sich bei einer Zeile um ein Duplikat handelt oder nicht. „true_string“ ist auf „True“ gesetzt und „false_string“ ist auf „False“ gesetzt. Der `target_index` ist auf 1 gesetzt, was bedeutet, dass die flag_row Spalte an der zweiten Position (Index 1) in der Ausgabe eingefügt wird. DataFrame

call(spark_context, data_frame, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING, target_index=None)

true_string – Wert, der eingefügt werden soll, wenn die Zeile mit einer früheren Zeile übereinstimmt.
false_string – Wert, der eingefügt werden soll, wenn die Zeile eindeutig ist.
target_column – Name der neuen Spalte, die in den Datensatz eingefügt wird.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

FillWithMode

RemoveDuplicates