Classe FormatCase - AWS Glue

Classe FormatCase

La transformation FormatCase remplace chaque chaîne d’une colonne par le type de cas spécifié.

exemple

from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = data_cleaning.FormatCase.apply( data_frame=datasource1, spark_context=sc, source_column="city", case_type="LOWER" ) except: print("Unexpected Error happened ") raise

Sortie

La transformation FormatCase convertira les valeurs de la colonne `city` en minuscules en fonction du paramètre `case_type="LOWER"`. Le DataFrame `df_output` qui en résulte contiendra toutes les colonnes du DataFrame `datasource1` d’origine, mais avec les valeurs des colonnes `city` en minuscules.

Méthodes

__call__(spark_context, data_frame, source_column, case_type)

La transformation FormatCase remplace chaque chaîne d’une colonne par le type de cas spécifié.

  • source_column : nom d’une colonne existante.

  • case_type : les types de casse pris en charge sont CAPITAL, LOWER, UPPER et SENTENCE.

apply(cls, *args, **kwargs)

Hérité de GlueTransform s'appliquent.

name(cls)

Hérité de GlueTransform name.

describeArgs(cls)

Hérité de GlueTransform describeArgs.

describeReturn(cls)

Hérité de GlueTransform describeReturn.

describeTransform(cls)

Hérité de GlueTransform describeTransform.

describeErrors(cls)

Hérité de GlueTransform describeErrors.

describe(cls)

Hérité de GlueTransform describe.