FillWithMode-Klasse - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

FillWithMode-Klasse

Die Transformation FillWithMode formatiert eine Spalte entsprechend dem von Ihnen angegebenen Telefonnummernformat. Sie können auch eine Tie-Breaker-Logik festlegen, wenn einige der Werte identisch sind. Betrachten wir beispielsweise folgende Werte: 1 2 2 3 3 4

Ein modeType von MINIMUM bewirkt, dass FillWithMode 2 als Moduswert zurückgibt. Wenn modeType MAXIMUM ist, ist der Modus 3. Für AVERAGE ist der Modus 2,5.

Beispiel

from awsglue.context import * from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) input_df = spark.createDataFrame( [ (105.111, 13.12), (1055.123, 13.12), (None, 13.12), (13.12, 13.12), (None, 13.12), ], ["source_column_1", "source_column_2"], ) try: df_output = data_quality.FillWithMode.apply( data_frame=input_df, spark_context=sc, source_column="source_column_1", mode_type="MAXIMUM" ) df_output.show() except: print("Unexpected Error happened ") raise

Output

Dies ist die Ausgabe des angegebenen Codes:

``` +---------------+---------------+ |source_column_1|source_column_2| +---------------+---------------+ | 105.111| 13.12| | 1055.123| 13.12| | 1055.123| 13.12| | 13.12| 13.12| | 1055.123| 13.12| +---------------+---------------+ ```

Die Transformation FillWithMode aus dem Modul „awsglue.data_quality“ wird auf den Datenrahmen „input_df“ angewendet. Sie ersetzt die „Null“-Werte in der Spalte source_column_1 durch den Maximalwert (`mode_type="maximum"`) aus den Nicht-Null-Werten in dieser Spalte.

In diesem Fall ist der Maximalwert in der Spalte source_column_1 „1055.123“. Daher werden die „Null“-Werte in source_column_1 im Ausgabedatenrahmen „df_output“ durch „1055.123“ ersetzt.

Methoden

__call__(spark_context, data_frame, source_column, mode_type)

Die Transformation FillWithMode formatiert die Groß- und Kleinschreibung von Zeichenfolgen in einer Spalte.

  • source_column – Der Name einer vorhandenen Spalte.

  • mode_type – Wie man gleiche Werte in den Daten auflöst. Dieser Wert muss einer von MINIMUM, NONE, AVERAGE oder MAXIMUM sein.

apply(cls, *args, **kwargs)

Geerbt von GlueTransform apply.

name(cls)

Geerbt von GlueTransform Name.

describeArgs(cls)

Geerbt von GlueTransform describeArgs.

describeReturn(cls)

Geerbt von GlueTransform describeReturn.

describeTransform(cls)

Geerbt von GlueTransform describeTransform.

describeErrors(cls)

Geerbt von GlueTransform describeErrors.

describe(cls)

Geerbt von GlueTransform Beschreiben.