Langkah-langkah persiapan data - Amazon Quick Suite

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah-langkah persiapan data

Pengalaman persiapan data Amazon Quick Sight menawarkan sebelas tipe langkah canggih yang memungkinkan Anda mengubah data secara sistematis. Setiap langkah melayani tujuan tertentu dalam alur kerja persiapan data.

Langkah-langkah dapat dikonfigurasi melalui antarmuka intuitif di panel Konfigurasi, dengan umpan balik langsung terlihat di panel Pratinjau. Langkah-langkah dapat digabungkan secara berurutan untuk membuat transformasi data yang canggih tanpa memerlukan keahlian SQL.

Setiap langkah dapat menerima masukan dari tabel fisik atau output dari langkah sebelumnya. Sebagian besar langkah menerima satu input, dengan langkah-langkah Append dan Join sebagai pengecualian — ini membutuhkan tepat dua input.

Input

Langkah Input memulai alur kerja persiapan data Anda di Quick Sight dengan memungkinkan Anda memilih dan mengimpor data dari berbagai sumber untuk transformasi pada langkah selanjutnya.

Opsi masukan

  • Tambahkan Dataset

    Manfaatkan kumpulan data Quick Sight yang ada sebagai sumber input, berdasarkan data yang telah disiapkan dan dioptimalkan oleh tim Anda.

  • Tambahkan Sumber Data

    Connect langsung ke database seperti Amazon Redshift, Athena, RDS, atau sumber lain yang didukung dengan memilih objek database tertentu dan menyediakan parameter koneksi.

  • Tambahkan Unggah File

    Impor data langsung dari file lokal dalam format seperti CSV, TSV, Excel, atau JSON.

Konfigurasi

Langkah Input tidak memerlukan konfigurasi. Panel Pratinjau menampilkan data yang diimpor bersama dengan informasi sumber, termasuk detail koneksi, nama tabel, dan metadata kolom.

Catatan penggunaan

  • Beberapa langkah Input dapat ada dalam satu alur kerja.

  • Anda dapat menambahkan langkah-langkah Input di setiap titik dalam alur kerja Anda.

Tambahkan Kolom Terhitung

Langkah Tambahkan Kolom Terhitung memungkinkan Anda membuat kolom baru menggunakan ekspresi tingkat baris yang melakukan perhitungan pada kolom yang ada. Anda dapat membuat kolom baru menggunakan fungsi dan operator skalar (tingkat baris), dan menerapkan perhitungan tingkat baris yang mereferensikan kolom yang ada.

Konfigurasi

Untuk mengonfigurasi langkah Tambahkan Kolom Terhitung, di panel Konfigurasi:

  1. Beri nama kolom terhitung baru Anda.

  2. Buat ekspresi menggunakan editor kalkulasi, yang mendukung fungsi dan operator tingkat baris (seperti ifelse dan round).

  3. Simpan perhitungan Anda.

  4. Pratinjau hasil ekspresi.

  5. Tambahkan lebih banyak kolom terhitung sesuai kebutuhan.

Catatan penggunaan

  • Hanya perhitungan skalar (tingkat baris) yang didukung dalam langkah ini.

  • Di SPICE, kolom yang dihitung diwujudkan dan berfungsi sebagai kolom standar pada langkah selanjutnya.

Ubah Tipe Data

Quick Sight menyederhanakan manajemen tipe data dengan mendukung empat tipe data abstrak:date,decimal,integer, danstring. Jenis abstrak ini menghilangkan kompleksitas dengan secara otomatis memetakan berbagai tipe data sumber ke ekuivalen Quick Sight mereka. Misalnya,,tinyint, smallintinteger, dan semuanya bigint dipetakan keinteger, while, datedatetime, dan timestamp dipetakan ke. date

Abstraksi ini berarti Anda hanya perlu memahami empat tipe data Quick Sight, karena Quick Sight menangani semua konversi dan perhitungan tipe data yang mendasarinya secara otomatis saat berinteraksi dengan sumber data yang berbeda.

Konfigurasi

Untuk mengonfigurasi langkah Ubah Jenis Data, di panel Konfigurasi:

  1. Pilih kolom untuk dikonversi.

  2. Pilih tipe data target (string,integer,decimal, ataudate).

  3. Untuk konversi tanggal, tentukan pengaturan format dan pratinjau hasil berdasarkan format input. Lihat format tanggal yang didukung di Quick Sight.

  4. Tambahkan kolom tambahan untuk mengonversi sesuai kebutuhan.

Catatan penggunaan

  • Konversikan beberapa tipe data kolom dalam satu langkah untuk efisiensi.

  • Saat menggunakan SPICE, semua perubahan tipe data diwujudkan dalam data yang diimpor.

Ganti Nama Kolom

Langkah Ganti Nama Kolom memungkinkan Anda memodifikasi nama kolom agar lebih deskriptif, ramah pengguna, dan konsisten dengan konvensi penamaan organisasi Anda.

Konfigurasi

Untuk mengonfigurasi langkah Ganti Nama Kolom, di panel Konfigurasi:

  1. Pilih kolom untuk diberi nama.

  2. Masukkan nama baru untuk kolom yang dipilih.

  3. Tambahkan lebih banyak kolom untuk mengganti nama sesuai kebutuhan.

Catatan penggunaan

  • Semua nama kolom harus unik dalam kumpulan data Anda.

Pilih Kolom

Langkah Pilih Kolom memungkinkan Anda merampingkan kumpulan data Anda dengan memasukkan, mengecualikan, dan menyusun ulang kolom. Ini membantu mengoptimalkan struktur data Anda dengan menghapus kolom yang tidak perlu dan mengatur kolom yang tersisa dalam urutan logis untuk analisis.

Konfigurasi

Untuk mengkonfigurasi langkah Pilih Kolom, di panel Konfigurasi:

  1. Pilih kolom tertentu untuk disertakan dalam output Anda.

  2. Pilih kolom dalam urutan pilihan Anda untuk menetapkan urutan.

  3. Gunakan Select All untuk menyertakan kolom yang tersisa dalam urutan aslinya.

  4. Kecualikan kolom yang tidak diinginkan dengan membiarkannya tidak dipilih.

Fitur Utama

  • Kolom keluaran muncul dalam urutan pemilihan.

  • Pilih Semua mempertahankan urutan kolom asli.

Catatan penggunaan

  • Kolom yang tidak dipilih dihapus dari langkah selanjutnya.

  • Optimalkan ukuran set data dengan menghapus kolom yang tidak perlu.

Menambahkan

Langkah Append secara vertikal menggabungkan dua tabel, mirip dengan operasi SQL UNION ALL. Quick Sight secara otomatis mencocokkan kolom berdasarkan nama daripada urutan, memungkinkan konsolidasi data yang efisien bahkan ketika tabel memiliki urutan kolom yang berbeda atau jumlah kolom yang bervariasi.

Konfigurasi

Untuk mengkonfigurasi langkah Append, di panel Konfigurasi:

  1. Pilih dua tabel input untuk ditambahkan.

  2. Tinjau urutan kolom output.

  3. Periksa kolom mana yang ada di kedua tabel versus tabel tunggal.

Fitur utama

  • Cocokkan kolom berdasarkan nama, bukan urutan.

  • Mempertahankan semua baris dari kedua tabel, termasuk duplikat.

  • Mendukung tabel dengan jumlah kolom yang berbeda.

  • Mengikuti urutan kolom Tabel 1 untuk kolom yang cocok, lalu menambahkan kolom unik dari Tabel 2.

  • Menampilkan indikator sumber yang jelas untuk semua kolom

Catatan penggunaan

  • Gunakan langkah Ganti Nama terlebih dahulu saat menambahkan kolom dengan nama yang berbeda.

  • Setiap langkah Append menggabungkan tepat dua tabel; gunakan langkah-langkah Append tambahan untuk lebih banyak tabel.

Join

Langkah Gabung secara horizontal menggabungkan data dari dua tabel berdasarkan nilai yang cocok dalam kolom tertentu. Quick Sight mendukung tipe Left Outer, Right Outer, Full Outer, dan Inner Join, memberikan opsi fleksibel untuk kebutuhan analitis Anda. Langkah ini mencakup resolusi konflik kolom cerdas yang secara otomatis menangani nama kolom duplikat. Meskipun self-join tidak tersedia sebagai tipe gabungan tertentu, Anda dapat mencapai hasil serupa menggunakan divergensi alur kerja.

Konfigurasi

Untuk mengonfigurasi langkah Gabung, di panel Konfigurasi:

  1. Pilih dua tabel input untuk bergabung.

  2. Pilih jenis gabungan Anda (Left Outer, Right Outer, Full Outer, atau Inner).

  3. Tentukan kunci gabungan dari setiap tabel.

  4. Tinjau konflik nama kolom yang diselesaikan secara otomatis.

Fitur utama

  • Mendukung beberapa jenis gabungan untuk kebutuhan analitis yang berbeda.

  • Secara otomatis menyelesaikan nama kolom duplikat.

  • Menerima kolom yang dihitung sebagai kunci gabungan.

Catatan penggunaan

  • Kunci gabungan harus memiliki tipe data yang kompatibel; gunakan langkah Ubah Jenis Data jika diperlukan.

  • Setiap langkah Gabung menggabungkan tepat dua tabel; gunakan langkah-langkah Gabung tambahan untuk lebih banyak tabel.

  • Buat langkah Ganti Nama setelah Bergabung untuk menyesuaikan header kolom yang diselesaikan secara otomatis.

Agregat

Langkah Agregat memungkinkan Anda untuk meringkas data dengan mengelompokkan kolom dan menerapkan operasi agregasi. Transformasi yang kuat ini memadatkan data terperinci menjadi ringkasan yang bermakna berdasarkan dimensi yang Anda tentukan. Quick Sight menyederhanakan operasi SQL yang kompleks melalui antarmuka yang intuitif, menawarkan fungsi agregasi yang komprehensif termasuk operasi string lanjutan seperti dan. ListAgg ListAgg distinct

Konfigurasi

Untuk mengkonfigurasi langkah Agregat, di panel Konfigurasi:

  1. Pilih kolom untuk dikelompokkan menurut.

  2. Pilih fungsi agregasi untuk mengukur kolom.

  3. Sesuaikan nama kolom keluaran.

  4. Untuk ListAgg danListAgg distinct:

    1. Pilih kolom untuk agregat.

    2. Pilih pemisah (koma, tanda hubung, titik koma, atau garis vertikal).

  5. Pratinjau data yang dirangkum.

Fungsi yang didukung per tipe data

Tipe data Fungsi yang Didukung

Numerik

Average, Sum

Count, Count Distinct

Max, Min

Date

Count, Count Distinct

Max, Min

ListAgg, ListAgg distinct (hanya untuk tanggal)

String

ListAgg, ListAgg distinct

Count, Count Distinct

Max, Min

Fitur utama

  • Menerapkan fungsi agregasi yang berbeda ke kolom dalam langkah yang sama.

  • Kelompokkan tanpa fungsi agregasi bertindak sebagai SQL SELECT DISTINCT.

  • ListAggmenggabungkan semua nilai; hanya ListAgg distinct mencakup nilai unik.

  • ListAggfungsi mempertahankan urutan pengurutan menaik secara default.

Catatan penggunaan

  • Agregasi secara signifikan mengurangi jumlah baris dalam kumpulan data Anda.

  • ListAggdan ListAgg distinct mendukung date nilai-nilai tetapi tidakdatetime.

  • Gunakan pemisah untuk menyesuaikan output rangkaian string.

Filter

Langkah Filter memungkinkan Anda untuk mempersempit dataset Anda dengan memasukkan hanya baris yang memenuhi kriteria tertentu. Anda dapat menerapkan beberapa kondisi filter dalam satu langkah, semuanya digabungkan melalui AND logika untuk membantu memfokuskan analisis Anda pada data yang relevan.

Konfigurasi

Untuk mengkonfigurasi langkah Filter, di panel Konfigurasi:

  1. Pilih kolom untuk difilter.

  2. Pilih operator perbandingan.

  3. Tentukan nilai filter berdasarkan tipe data kolom.

  4. Tambahkan kondisi filter tambahan di kolom yang berbeda jika diperlukan.

catatan
  • String filter dengan “is in” atau “is not in”: Masukkan beberapa nilai (satu per baris).

  • Filter numerik dan tanggal: Masukkan nilai tunggal (kecuali “antara” yang membutuhkan dua nilai).

Operator yang didukung per tipe data

Tipe data Operator yang Didukung

Integer dan Desimal

Sama, tidak sama

Lebih besar dari, kurang dari

Lebih besar dari atau sama dengan, kurang dari atau sama dengan

Adalah antara

Date

Setelah, Sebelum

Adalah antara

Apakah setelah atau sama dengan, Apakah sebelum atau sama dengan

String

Sama, tidak sama

Dimulai dengan, Berakhir dengan

Berisi, Tidak mengandung

Ada di dalam, Tidak di

Catatan penggunaan

  • Terapkan beberapa kondisi filter dalam satu langkah.

  • Campur kondisi di berbagai tipe data.

  • Pratinjau hasil yang difilter secara real-time.

Pivot

Langkah Pivot mengubah nilai baris menjadi kolom unik, mengubah data dari format panjang ke format lebar untuk perbandingan dan analisis yang lebih mudah. Transformasi ini memerlukan spesifikasi untuk penyaringan nilai, agregasi, dan pengelompokan untuk mengelola kolom keluaran secara efektif.

Konfigurasi

Untuk mengonfigurasi langkah Pivot, gunakan yang berikut ini di panel Konfigurasi:

  1. Kolom pivot: Pilih kolom yang nilainya akan menjadi header kolom (misalnya, Kategori).

  2. Nilai baris kolom pivot: Filter nilai spesifik untuk disertakan (misalnya, Teknologi, Perlengkapan Kantor).

  3. Header kolom keluaran: Sesuaikan header kolom baru (default ke nilai kolom pivot).

  4. Kolom nilai: Pilih kolom untuk digabungkan (misalnya, Penjualan).

  5. Fungsi agregasi: Pilih metode agregasi (misalnya, Jumlah).

  6. Kelompokkan menurut: Tentukan kolom pengorganisasian (misalnya, Segmen).

Operator yang didukung per tipe data

Tipe data Operator yang Didukung

Integer dan Desimal

Average, Sum

Count, Count Distinct

Max, Min

Date

Count, Count Distinct

Max, Min

ListAgg, ListAgg distinct (hanya nilai tanggal)

String

ListAgg, ListAgg distinct

Count, Count Distinct

Max, Min

Catatan penggunaan

  • Setiap kolom berputar berisi nilai agregat dari kolom nilai.

  • Sesuaikan header kolom untuk kejelasan.

  • Pratinjau hasil transformasi secara real-time.

Unpivot

Langkah Unpivot mengubah kolom menjadi baris, mengubah data lebar menjadi format yang lebih panjang dan lebih sempit. Transformasi ini membantu mengatur penyebaran data di beberapa kolom ke dalam format yang lebih terstruktur untuk analisis dan visualisasi yang lebih mudah.

Konfigurasi

Untuk mengkonfigurasi langkah Unpivot, di panel Konfigurasi:

  1. Pilih kolom untuk unpivot menjadi baris.

  2. Tentukan nilai baris kolom keluaran. Defaultnya adalah nama kolom asli. Beberapa contoh termasuk Teknologi, Perlengkapan Kantor, dan Perabotan.

  3. Beri nama dua kolom output baru.

    • Header kolom unpivoted: Nama untuk nama kolom sebelumnya (misalnya, Kategori)

    • Nilai kolom unpivoted: Nama untuk nilai unpivoted (mis., Penjualan)

Fitur utama

  • Mempertahankan semua kolom non-unpivoted dalam output.

  • Membuat dua kolom baru secara otomatis: satu untuk nama kolom sebelumnya dan satu untuk nilai yang sesuai.

  • Mengubah data yang luas menjadi format panjang.

Catatan penggunaan

  • Semua kolom yang tidak diputar harus memiliki tipe data yang kompatibel.

  • Jumlah baris biasanya meningkat setelah unpivoting.

  • Pratinjau perubahan secara real-time sebelum menerapkannya.