範例 Output — methods —__call__apply name describeArgs describeReturn describeTransform describeErrors describe

FlagDuplicatesInColumn 類別

FlagDuplicatesInColumn 會傳回一個新資料欄，每個資料列都有一個指定值，指示該資料列的來源資料欄中的值是否與來源資料欄的較早的資料列中的值相符。找到相符項目時，其會標記為重複項目。初始出現不會標記，因為其不符合較早的資料列。

範例


from pyspark.context import SparkContext
from pyspark.sql import SparkSession      
from awsgluedi.transforms import *

sc = SparkContext()
spark = SparkSession(sc)

datasource1 = spark.read.json("s3://${BUCKET}/json/zips/raw/data")

try:
    df_output = column.FlagDuplicatesInColumn.apply(
        data_frame=datasource1,
        spark_context=sc,
        source_column="city",
        target_column="flag_col",
        true_string="True",
        false_string="False"
    )
except:
    print("Unexpected Error happened ")
    raise

Output

FlagDuplicatesInColumn 轉換會將新的資料欄 `flag_col` 新增至 `df_output` DataFrame。此資料欄將包含字串值，指示對應的資料列在 `city` 資料欄中是否有重複的值。如果資料列具有重複的 `city` 值，`flag_col` 將包含 `true_string` 值 "True"。如果資料列具有唯一的 `city` 值，`flag_col` 將包含 `false_string` 值 "False"。

產生的 `df_output` DataFrame 將包含來自原始 `datasource1` DataFrame 的所有資料欄，加上指出重複 `city` 值的額外 `flag_col` 資料欄。

call(spark_context, data_frame, source_column, target_column, true_string=DEFAULT_TRUE_STRING, false_string=DEFAULT_FALSE_STRING)

source_column – 來源資料欄的名稱。
target_column – 目標資料欄的名稱。
true_string – 在來源資料欄值與該資料欄中的較早值重複時，要插入目標資料欄中的字串。
false_string – 在來源資料欄值與該資料欄中的較早值不同時，要插入目標資料欄中的字串。

apply(cls, *args, **kwargs)

繼承自 GlueTransform apply。

name(cls)

繼承自 GlueTransform name。

describeArgs(cls)

繼承自 GlueTransform describeArgs。

describeReturn(cls)

繼承自 GlueTransform describeReturn。

describeTransform(cls)

繼承自 GlueTransform describeTransform。

describeErrors(cls)

繼承自 GlueTransform describeErrors。

describe(cls)

繼承自 GlueTransform describe。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

UnnestFrame

FormatPhoneNumber