Aktifkan Validasi Kualitas Data - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Aktifkan Validasi Kualitas Data

Anda dapat mengaktifkan pemeriksaan kualitas data dengan menyediakan cluster sumber dan target IDs di prompt Anda. Sistem menjalankan aplikasi Anda yang ada di cluster sumber untuk mengumpulkan metadata dasar untuk perbandingan.

Catatan: Hanya operasi penulisan Spark yang dapat dilacak untuk kualitas data.

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Perbedaan Alur Kerja Kualitas Data

Alur kerja mengikuti langkah yang sama dengan proses pemutakhiran standar dengan langkah-langkah tambahan ini dalam urutan di atas:

  • [Setelah Langkah 3: Tinjauan Rencana dan Kustomisasi]

    • Bangun dengan Konfigurasi Saat Ini: Bangun aplikasi dengan konfigurasi saat ini untuk pengiriman cluster sumber.

    • Validasi pada Cluster EMR Sumber: Jalankan aplikasi asli pada versi Spark sumber dan kumpulkan metadata keluaran untuk perbandingan dasar.

  • [Setelah Langkah 7: Ringkasan untuk peningkatan] Ringkasan Kualitas Data: Laporan perbandingan kualitas data antara versi dan analisis.

Kemampuan ketidakcocokan kualitas data saat ini meliputi:

  • Pemeriksaan Skema: Mendeteksi perubahan dalam struktur kolom: kolom hilang atau baru ditambahkan, perbedaan tipe data, dan perubahan nullability.

  • Cek Nilai (kolom numerik dan string saja)

    • Membandingkan min, max, dan mean (mean hanya untuk kolom numerik).

    • Untuk string, min dan max didasarkan pada urutan leksikografis.

  • Pemeriksaan Statistik Agregat: Membandingkan jumlah baris total antara output sumber dan target.

Validasi Kualitas Data: Ruang Lingkup dan Keterbatasan

Validasi Kualitas Data mendukung langkah EMR EC2 menggunakan perintah spark-submit dengan versi Spark >= 3.0 dan cluster EMR tidak dapat memiliki> 1. StepConcurrencyLevel Validasi Kualitas Data mengevaluasi statistik pada node sink data paket kueri Spark (sumber data/metadata Transforms tidak ditangkap) dan mencakup operasi penulisan Spark umum termasuk penulisan file, sisipan database, pembuatan tabel, dan berbagai output sumber data.