-

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Transform

Join View

Lihat untuk mempelajari selengkapnya.

Concatenate View

Lihat untuk mempelajari selengkapnya.

catatan

penting

df.rename(columns={"A column": "A_column", "B column": "B_column"})

PySpark

from pyspark.sql.functions import from_unixtime, to_date, date_format df = df.withColumn('DATE_TIME', from_unixtime('TIMESTAMP')) df = df.withColumn( 'EVENT_DATE', to_date('DATE_TIME')).withColumn( 'EVENT_TIME', date_format('DATE_TIME', 'HH:mm:ss'))

df.info()

SELECT name, fare, pclass, survived FROM df

  • Identik

  • Menghapus

# Specify the subset of columns # all rows having identical values in these columns will be dropped subset = ["col1", "col2", "col3"] df = df.dropDuplicates(subset) # to drop the full-duplicate rows run # df = df.dropDuplicates()

penting

df.rename(columns={"A column": "A_column", "B column": "B_column"})

col_a * col_b

  1. Pilih Tambahkan.

  1. Tentukan hal berikut:

    • Nilai default-nya adalah 30.

    • Default ke 1.

    • Default ke True.

    • Default ke ' \\ s+'.

    • Default ke True.

      • Default ke 1.

      • Default ke 1.

      • Default ke 0.999.

      • Default ke 262144.

      • Default ke False.

    • Default ke 5.

Topik

Stempel Waktu

Stempel Waktu

Stempel Waktu

Nama Fungsi

Anda dapat memilih dari opsi berikut:

Anda dapat memilih dari opsi berikut:

Anda dapat memilih dari opsi berikut:

Anda dapat memilih dari opsi berikut:

Nama Fungsi

Pengambilan sampel

  1. Pilih Pengambilan sampel.

  1. Pilih Pengambilan sampel.

Nama Fungsi

Randomized split

  1. Pilih Tambahkan.

Ordered split

  1. Pilih Tambahkan.

Stratified split

  1. Pilih Tambahkan.

Split by column keys

  1. Pilih Tambahkan.

  • Panjang

  • Desimal

  • Boolean

  • String

Nama Fungsi

Jika tidak, mengembalikan False.

Starts with

Jika tidak, mengembalikan False.

Ends with

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

Jika tidak, mengembalikan False.

"{"seq": 1,"name": {"first": "Nathaniel","last": "Ferguson"},"age": 59,"city": "Posbotno","state": "WV"}"

  • name

  • status

seq, name, age, city, state 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV

seq, name, age, city, state, name_first, name_last 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV, Nathaniel, Ferguson

[1, 2, 3] [4, 5, 6] [7, 8, 9]

id array id id

  1. Pilih Amazon S3.

  2. Pilih Impor.

  • ResizeImage

  • EnhanceImage

  • CorruptImage

  • SplitImage

  • DropCorruptedImages

  • DropImageDuplicates

  • ColorChannels

  1. Pilih Tambahkan.

# A table with your image data is stored in the `df` variable import cv2 import numpy as np from pyspark.sql.functions import column from sagemaker_dataprep.compute.operators.transforms.image.constants import DEFAULT_IMAGE_COLUMN, IMAGE_COLUMN_TYPE from sagemaker_dataprep.compute.operators.transforms.image.decorators import BasicImageOperationDecorator, PandasUDFOperationDecorator @BasicImageOperationDecorator def my_transform(image: np.ndarray) -> np.ndarray: # To use the code snippet on your image data, modify the following lines within the function HYST_THRLD_1, HYST_THRLD_2 = 100, 200 edges = cv2.Canny(image,HYST_THRLD_1,HYST_THRLD_2) return edges @PandasUDFOperationDecorator(IMAGE_COLUMN_TYPE) def custom_image_udf(image_row): return my_transform(image_row) df = df.withColumn(DEFAULT_IMAGE_COLUMN, custom_image_udf(column(DEFAULT_IMAGE_COLUMN)))

Untuk memfilter data Anda
  1. Pilih Tambahkan.