本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
FlagDuplicatesInColumn 類別
FlagDuplicatesInColumn 會傳回一個新資料欄,每個資料列都有一個指定值,指示該資料列的來源資料欄中的值是否與來源資料欄的較早的資料列中的值相符。找到相符項目時,其會標記為重複項目。初始出現不會標記,因為其不符合較早的資料列。
範例
from pyspark.context import SparkContext from pyspark.sql import SparkSession from awsgluedi.transforms import * sc = SparkContext() spark = SparkSession(sc) datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data") try: df_output = column.FlagDuplicatesInColumn.apply( data_frame=datasource1, spark_context=sc, source_column="city", target_column="flag_col", true_string="True", false_string="False" ) except: print("Unexpected Error happened ") raise
輸出
FlagDuplicatesInColumn 轉換會將新的資料欄 `flag_col` 新增至 `df_output` DataFrame。此資料欄將包含字串值,指示對應的資料列在 `city` 資料欄中是否有重複的值。如果資料列具有重複的 `city` 值,`flag_col` 將包含 `true_string` 值 "True"。如果資料列具有唯一的 `city` 值,`flag_col` 將包含 `false_string` 值 "False"。
產生的 `df_output` DataFrame 將包含來自原始 `datasource1` DataFrame 的所有資料欄,加上指出重複 `city` 值的額外 `flag_col` 資料欄。
方法
__call__(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)
FlagDuplicatesInColumn 會傳回一個新資料欄,每個資料列都有一個指定值,指示該資料列的來源資料欄中的值是否與來源資料欄的較早的資料列中的值相符。找到相符項目時,其會標記為重複項目。初始出現不會標記,因為其不符合較早的資料列。
-
source_column– 來源資料欄的名稱。 -
target_column– 目標資料欄的名稱。 -
true_string– 在來源資料欄值與該資料欄中的較早值重複時,要插入目標資料欄中的字串。 -
false_string– 在來源資料欄值與該資料欄中的較早值不同時,要插入目標資料欄中的字串。
apply(cls, *args, **kwargs)
繼承自 GlueTransform apply。
name(cls)
繼承自 GlueTransform name。
describeArgs(cls)
繼承自 GlueTransform describeArgs。
describeReturn(cls)
繼承自 GlueTransform describeReturn。
describeTransform(cls)
繼承自 GlueTransform describeTransform。
describeErrors(cls)
繼承自 GlueTransform describeErrors。
describe(cls)
繼承自 GlueTransform describe。