Classe FormatCase
La transformation FormatCase remplace chaque chaîne d’une colonne par le type de cas spécifié.
exemple
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = data_cleaning.FormatCase.apply( data_frame=datasource1, spark_context=sc, source_column="city", case_type="LOWER" ) except: print("Unexpected Error happened ") raise
Sortie
La transformation FormatCase convertira les valeurs de la colonne `city` en minuscules en fonction du paramètre `case_type="LOWER"`. Le DataFrame `df_output` qui en résulte contiendra toutes les colonnes du DataFrame `datasource1` d’origine, mais avec les valeurs des colonnes `city` en minuscules.
Méthodes
__call__(spark_context, data_frame, source_column, case_type)
La transformation FormatCase remplace chaque chaîne d’une colonne par le type de cas spécifié.
-
source_column: nom d’une colonne existante. -
case_type: les types de casse pris en charge sontCAPITAL,LOWER,UPPERetSENTENCE.
apply(cls, *args, **kwargs)
Hérité de GlueTransform s'appliquent.
name(cls)
Hérité de GlueTransform name.
describeArgs(cls)
Hérité de GlueTransform describeArgs.
describeReturn(cls)
Hérité de GlueTransform describeReturn.
describeTransform(cls)
Hérité de GlueTransform describeTransform.
describeErrors(cls)
Hérité de GlueTransform describeErrors.
describe(cls)
Hérité de GlueTransform describe.