Perbedaan Alur Kerja Kualitas Data Validasi Kualitas Data: Ruang Lingkup dan Keterbatasan

Aktifkan Validasi Kualitas Data

Anda dapat mengaktifkan pemeriksaan kualitas data dengan menyediakan cluster sumber dan target IDs di prompt Anda. Sistem menjalankan aplikasi Anda yang ada di cluster sumber untuk mengumpulkan metadata dasar untuk perbandingan.

Catatan: Hanya operasi penulisan Spark yang dapat dilacak untuk kualitas data.


Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run  
and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts  
and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Perbedaan Alur Kerja Kualitas Data

Alur kerja mengikuti langkah yang sama dengan proses pemutakhiran standar dengan langkah-langkah tambahan ini dalam urutan di atas:

[Setelah Langkah 3: Tinjauan Rencana dan Kustomisasi]
- Bangun dengan Konfigurasi Saat Ini: Bangun aplikasi dengan konfigurasi saat ini untuk pengiriman cluster sumber.
- Validasi pada Cluster EMR Sumber: Jalankan aplikasi asli pada versi Spark sumber dan kumpulkan metadata keluaran untuk perbandingan dasar.
[Setelah Langkah 7: Ringkasan untuk peningkatan] Ringkasan Kualitas Data: Laporan perbandingan kualitas data antara versi dan analisis.

Kemampuan ketidakcocokan kualitas data saat ini meliputi:

Pemeriksaan Skema: Mendeteksi perubahan dalam struktur kolom: kolom hilang atau baru ditambahkan, perbedaan tipe data, dan perubahan nullability.
Cek Nilai (kolom numerik dan string saja)
- Membandingkan min, max, dan mean (mean hanya untuk kolom numerik).
- Untuk string, min dan max didasarkan pada urutan leksikografis.
Pemeriksaan Statistik Agregat: Membandingkan jumlah baris total antara output sumber dan target.

Validasi Kualitas Data: Ruang Lingkup dan Keterbatasan

Validasi Kualitas Data mendukung langkah EMR EC2 menggunakan perintah spark-submit dengan versi Spark >= 3.0 dan cluster EMR tidak dapat memiliki> 1. StepConcurrencyLevel Validasi Kualitas Data mengevaluasi statistik pada node sink data paket kueri Spark (sumber data/metadata Transforms tidak ditangkap) dan mencakup operasi penulisan Spark umum termasuk penulisan file, sisipan database, pembuatan tabel, dan berbagai output sumber data.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Alur Kerja Agen Peningkatan Spark Secara Detail

Contoh Prompt untuk Agen Peningkatan Spark