Validierung der Datenqualität aktivieren - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Validierung der Datenqualität aktivieren

Sie können Datenqualitätsprüfungen aktivieren, indem Sie IDs in Ihrer Aufforderung sowohl den Quell- als auch den Zielcluster angeben. Das System führt Ihre bestehende Anwendung auf dem Quellcluster aus, um Basismetadaten zum Vergleich zu sammeln.

Hinweis: Nur Spark-Schreibvorgänge können im Hinblick auf die Datenqualität nachverfolgt werden.

Upgrade my pyspark application <local-path>/pyspark-example-24/ from EMR version 6.0.0 to 7.12.0. Use EMR-EC2 Cluster <source-cluster-id> for source version run and <target-cluster-id> for target version run. Use s3 path s3://<please fill in your staging bucket path> to store updated application artifacts and s3://<please fill in your staging bucket path>/metadata for storing metadata. Enable data quality checks.

Unterschiede im Arbeitsablauf bei der Datenqualität

Der Workflow folgt den gleichen Schritten wie der Standard-Upgrade-Prozess mit diesen zusätzlichen Schritten in der oben angegebenen Reihenfolge:

  • [Nach Schritt 3: Überprüfung und Anpassung des Plans]

    • Mit aktueller Konfiguration erstellen: Erstellen Sie die Anwendung mit der aktuellen Konfiguration für die Einreichung des Quellclusters.

    • Auf Quell-EMR-Cluster validieren: Führen Sie die Originalanwendung auf der Quell-Spark-Version aus und sammeln Sie die Ausgabe-Metadaten für den Basisvergleich.

  • [Nach Schritt 7: Zusammenfassung für das Upgrade] Zusammenfassung der Datenqualität: Bericht zum Vergleich der Datenqualität zwischen Versionen und Analyse.

Die Funktion zur Nichtübereinstimmung der Datenqualität umfasst derzeit:

  • Schemaprüfungen: Erkennt Änderungen in der Spaltenstruktur: fehlende oder neu hinzugefügte Spalten, Datentypunterschiede und Änderungen der NULL-Zulässigkeit.

  • Wertprüfungen (nur numerische Spalten und Zeichenkettenspalten)

    • Vergleicht Min, Max und Mittelwert (Mittelwert nur für numerische Spalten).

    • Bei Zeichenketten basieren Min und Max auf der lexikographischen Reihenfolge.

  • Aggregierte statistische Prüfungen: Vergleicht die Gesamtzahl der Zeilen zwischen Quell- und Zielausgaben.

Validierung der Datenqualität: Umfang und Einschränkungen

Data Quality Validation unterstützt EC2 EMR-Schritte mit dem Befehl spark-submit mit Spark-Version >= 3.0 und der EMR-Cluster darf nicht > 1 haben. StepConcurrencyLevel Die Datenqualitätsprüfung wertet Statistiken an den Datensenkenknoten des Spark-Abfrageplans aus (die Metadaten der Datenquelle/Transformationen werden nicht erfasst) und deckt allgemeine Spark-Schreibvorgänge ab, darunter Dateischreibvorgänge, Datenbankeinfügungen, Tabellenerstellung und verschiedene Datenquellenausgaben.