FlagDuplicatesInColumn-Klasse - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FlagDuplicatesInColumn-Klasse

Die FlagDuplicatesInColumn-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.

Beispiel

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise

Output

Die FlagDuplicatesInColumn-Transformation fügt dem Datenrahmen „df_output“ eine neue Spalte „flag_col“ hinzu. Diese Spalte enthält einen Zeichenfolgenwert, der angibt, ob die entsprechende Zeile einen doppelten Wert in der Spalte „city“ hat oder nicht. Wenn eine Zeile einen doppelten „city“-Wert hat, enthält „flag_col“ den „true_string“-Wert „True“. Wenn eine Zeile einen eindeutigen „city“-Wert hat, enthält „flag_col“ den „false_string“-Wert „False“.

Der resultierende „df_output“-Datenrahmen enthält alle Spalten des ursprünglichen „datasource1“-Datenrahmens sowie die zusätzliche „flag_co“`-Spalte, die doppelte „city“-Werte anzeigt.

Methoden

__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

Die FlagDuplicatesInColumn-Transformation gibt eine neue Spalte mit einem bestimmten Wert in jeder Zeile zurück. Damit wird angegeben, ob der Wert in der Quellspalte der Zeile mit einem Wert in einer früheren Zeile der Quellspalte übereinstimmt. Wenn Übereinstimmungen gefunden werden, werden diese als Duplikate gekennzeichnet. Das ursprüngliche Vorkommen wird nicht gekennzeichnet, da es nicht mit einer früheren Zeile übereinstimmt.

  • source_column – Name der Quellspalte.

  • target_column – Name der Zielspalte.

  • true_string – Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn ein Quellspaltenwert einen früheren Wert in dieser Spalte dupliziert.

  • false_string – Zeichenfolge, die in die Zielspalte eingefügt werden soll, wenn sich ein Quellspaltenwert von früheren Werten in dieser Spalte unterscheidet.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.