Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
catatan
penting
df.rename(columns={"A column": "A_column", "B column": "B_column"})
PySpark
from pyspark.sql.functions import from_unixtime, to_date, date_format df = df.withColumn('DATE_TIME', from_unixtime('TIMESTAMP')) df = df.withColumn( 'EVENT_DATE', to_date('DATE_TIME')).withColumn( 'EVENT_TIME', date_format('DATE_TIME', 'HH:mm:ss'))
df.info()
SELECT name, fare, pclass, survived FROM df
-
Identik
-
Menghapus
# Specify the subset of columns # all rows having identical values in these columns will be dropped subset = ["col1", "col2", "col3"] df = df.dropDuplicates(subset) # to drop the full-duplicate rows run # df = df.dropDuplicates()
penting
df.rename(columns={"A column": "A_column", "B column": "B_column"})
col_a * col_b
-
-
-
-
-
-
-
Pilih Tambahkan.
-
Tentukan hal berikut:
-
Nilai default-nya adalah 30.
-
-
-
-
-
Default ke
1. -
Default ke
True. -
Default ke
' \\ s+'. -
Default ke
True.
-
-
-
-
Default ke
1. -
Default ke
1. -
Default ke
0.999. -
Default ke
262144. -
Default ke
False.
-
-
-
-
-
-
Default ke
5.
-
-
-
| Stempel Waktu | |
|---|---|
| Stempel Waktu | |
|---|---|
| Stempel Waktu | |
|---|---|
| Nama | Fungsi |
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Anda dapat memilih dari opsi berikut:
Anda dapat memilih dari opsi berikut:
Anda dapat memilih dari opsi berikut:
Anda dapat memilih dari opsi berikut:
| Nama | Fungsi |
|---|---|
|
|
Pengambilan sampel
-
-
Pilih Pengambilan sampel.
-
-
Pilih Pengambilan sampel.
| Nama | Fungsi |
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-
Panjang
-
Desimal
-
Boolean
-
-
String
| Nama | Fungsi |
|---|---|
|
Jika tidak, mengembalikan |
|
|
Starts with |
Jika tidak, mengembalikan |
|
Ends with |
Jika tidak, mengembalikan |
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
|
|
Jika tidak, mengembalikan |
"{"seq": 1,"name": {"first": "Nathaniel","last": "Ferguson"},"age": 59,"city": "Posbotno","state": "WV"}"
-
name
-
status
seq, name, age, city, state 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV
seq, name, age, city, state, name_first, name_last 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV, Nathaniel, Ferguson
[1, 2, 3] [4, 5, 6] [7, 8, 9]
| id | array | id | id | ||
|---|---|---|---|---|---|
-
Pilih Amazon S3.
-
Pilih Impor.
-
ResizeImage
-
EnhanceImage
-
CorruptImage
-
SplitImage
-
DropCorruptedImages
-
DropImageDuplicates
-
ColorChannels
-
Pilih Tambahkan.
# A table with your image data is stored in the `df` variable import cv2 import numpy as np from pyspark.sql.functions import column from sagemaker_dataprep.compute.operators.transforms.image.constants import DEFAULT_IMAGE_COLUMN, IMAGE_COLUMN_TYPE from sagemaker_dataprep.compute.operators.transforms.image.decorators import BasicImageOperationDecorator, PandasUDFOperationDecorator @BasicImageOperationDecorator def my_transform(image: np.ndarray) -> np.ndarray: # To use the code snippet on your image data, modify the following lines within the function HYST_THRLD_1, HYST_THRLD_2 = 100, 200 edges = cv2.Canny(image,HYST_THRLD_1,HYST_THRLD_2) return edges @PandasUDFOperationDecorator(IMAGE_COLUMN_TYPE) def custom_image_udf(image_row): return my_transform(image_row) df = df.withColumn(DEFAULT_IMAGE_COLUMN, custom_image_udf(column(DEFAULT_IMAGE_COLUMN)))
Untuk memfilter data Anda
-
-
Pilih Tambahkan.