Clase FormatCase
La transformación FormatCase cambia cada cadena de una columna al tipo de mayúsculas y minúsculas especificado.
Ejemplo
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = data_cleaning.FormatCase.apply( data_frame=datasource1, spark_context=sc, source_column="city", case_type="LOWER" ) except: print("Unexpected Error happened ") raise
Output
La transformación FormatCase convertirá los valores de la columna “city” a minúsculas según el parámetro “case_type="LOWER"”. El elemento DataFrame “df_output” resultante contendrá todas las columnas de la “datasource1” original, pero con los valores de la columna “city” en minúsculas.
Métodos
__call__(spark_context, data_frame, source_column, case_type)
La transformación FormatCase cambia cada cadena de una columna al tipo de mayúsculas y minúsculas especificado.
-
source_column: el nombre de una columna existente. -
case_type: los tipos de mayúsculas y minúsculas admitidos sonCAPITAL,LOWER,UPPER,SENTENCE.
apply(cls, *args, **kwargs)
Heredado de GlueTransform apply.
name(cls)
Heredado de GlueTransform nombre.
describeArgs(cls)
Heredado de GlueTransform describeArgs.
describeReturn(cls)
Heredado de GlueTransform describeReturn.
describeTransform(cls)
Heredado de GlueTransform describeTransform.
describeErrors(cls)
Heredado de GlueTransform describeErrors.
describe(cls)
Heredado de GlueTransform describe.