Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Glue Data Quality
Mithilfe von AWS Glue Data Quality können Sie die Qualität Ihrer Daten messen und überwachen, um gute Geschäftsentscheidungen zu treffen. AWS Glue Data Quality wurde auf der Grundlage des Open-Source-Frameworks DeeQu entwickelt und bietet ein verwaltetes, Serverless-Erlebnis. AWS Glue Data Quality funktioniert mit Data Quality Definition Language (DQDL), einer Domain-spezifischen Sprache, die Sie zum Definieren von Datenqualitätsregeln verwenden. Weitere Informationen über DQDL und die unterstützten Regeltypen finden Sie unter Referenz zu Data Quality Definition Language (DQDL).
Weitere Produktdetails und Preise finden Sie auf der Serviceseite für AWS Glue Data Quality
Vorteile und wichtige Features
Zu den Vorteilen und Hauptmerkmalen von AWS Glue Data Quality gehören:
-
Serverless – es gibt keine Installation, Patches oder Wartung.
-
Schneller Einstieg – AWS Glue Data Quality analysiert Ihre Daten schnell und erstellt für Sie Datenqualitätsregeln. Sie können mit zwei Klicks loslegen: „Datenqualitätsregeln erstellen → Regeln empfehlen“.
-
Erkennen von Datenqualitätsproblemen – Verwenden Sie Machine Learning (ML), um Anomalien und schwer zu erkennende Datenqualitätsprobleme zu erkennen.
-
Regeln improvisieren – mit mehr als 25 sofort einsatzbereiten DQ-Regeln können Sie Regeln erstellen, die Ihren spezifischen Anforderungen entsprechen.
-
Qualität bewerten und fundierte Geschäftsentscheidungen treffen – Sobald Sie die Regeln bewertet haben, erhalten Sie einen Datenqualitätswert, der einen Überblick über den Zustand Ihrer Daten bietet. Verwenden Sie den Wert von Data Quality, um sichere Geschäftsentscheidungen zu treffen.
-
Schlechte Daten im Visier – Mit AWS Glue Data Quality können Sie die genauen Datensätze identifizieren, die zum Rückgang Ihrer Qualitätswerte geführt haben. Identifizieren, isolieren und beheben Sie sie ganz einfach.
-
Nutzungsabhängige Zahlung – Für die Nutzung von AWS Glue Data Quality sind keine Jahreslizenzen erforderlich.
-
Keine Bindung – AWS Glue Data Quality basiert auf Open-Source-DeeQu, sodass Sie die Regeln, die Sie erstellen, in einer offenen Sprache halten können.
-
Datenqualitätsprüfungen – Sie können Datenqualitätsprüfungen für Data Catalog- und AWS Glue-ETL-Pipelines erzwingen, sodass Sie die Datenqualität im Ruhezustand und während der Übertragung verwalten können.
-
ML-gestützte Datenqualitätserkennung – Verwenden Sie Machine Learning (ML), um Anomalien und schwer zu erkennende Datenqualitätsprobleme zu erkennen.
-
Offene Sprache zum Ausdruck von Regeln – stellt sicher, dass Datenqualitätsregeln einheitlich und einfach verfasst werden. Geschäftsanwender können Datenqualitätsregeln ganz einfach in einer für sie verständlichen Sprache ausdrücken. Für Ingenieure bietet diese Sprache die Flexibilität, Code zu generieren, eine konsistente Versionsverwaltung zu implementieren und Bereitstellungen zu automatisieren.
Funktionsweise
Es gibt zwei Einstiegspunkte für AWS Glue Data Quality: die AWS Glue Data Catalog- und AWS Glue-ETL-Aufträge. Dieser Abschnitt bietet einen Überblick über die Anwendungsfälle und AWS Glue-Features, die jeder Einstiegspunkt unterstützt.
Datenqualität für den AWS Glue Data Catalog
AWS Glue Data Quality wertet Objekte aus, die im AWS Glue Data Catalog gespeichert sind. Es bietet Nicht-Programmierern eine einfache Möglichkeit, Datenqualitätsregeln einzurichten. Zu diesen Persönlichkeiten gehören Datenverwalter und Geschäftsanalysten.
Sie können diese Option für die folgenden Anwendungsfälle wählen:
-
Sie möchten Datenqualitätsaufgaben für Datensätze durchführen, die Sie bereits im AWS Glue Data Catalog katalogisiert haben.
-
Sie arbeiten an der Datenverwaltung und müssen kontinuierlich Datenqualitätsprobleme in Ihrem Data Lake identifizieren oder bewerten.
Sie können die Datenqualität für den Datenkatalog über die folgenden Schnittstellen verwalten:
-
Die AWS Glue-Managementkonsole
-
AWS Glue-APIs
Informationen zum Einstieg in AWS Glue Data Quality für den AWS Glue Data Catalog finden Sie unter Erste Schritte mit AWS Glue Data Quality für den Data Catalog.
Datenqualität für AWS Glue-ETL-Aufträge
Mit AWS Glue Data Quality für AWS Glue-ETL-Aufträge können Sie proaktive Aufgaben zur Datenqualität durchführen. Proaktive Aufgaben helfen Ihnen, fehlerhafte Daten zu identifizieren und herauszufiltern, bevor Sie einen Datensatz in Ihren Data Lake laden.
Sie können die Datenqualität für ETL-Aufträge für die folgenden Anwendungsfälle auswählen:
-
Sie möchten Datenqualitätsaufgaben in Ihre ETL-Aufträge einbeziehen
-
Sie möchten Code schreiben, der Datenqualitätsaufgaben in ETL-Skripten definiert
-
Sie möchten die Qualität der Daten, die in Ihren visuellen Daten-Pipelines fließen, verwalten
Sie können die Datenqualität für ETL-Aufträge über die folgenden Schnittstellen verwalten:
-
AWS Glue Studio-, AWS Glue Studio-Notebooks und AWS Glue-interaktive Sitzungen
-
AWS Glue-Bibliotheken für ETL-Skripterstellung
-
AWS Glue-APIs
Informationen zu den ersten Schritten mit der Datenqualität für ETL-Aufträge finden Sie unter Tutorial: Erste Schritte mit Data Quality im AWS Glue Studio-Benutzerhandbuch.
Vergleich der Datenqualität für den Datenkatalog mit der Datenqualität für ETL-Aufträge
Diese Tabelle bietet eine Übersicht über die Features, die jeder Einstiegspunkt für AWS Glue Data Quality unterstützt.
| Funktion | Datenqualität für den Datenkatalog | Datenqualität für ETL-Aufträge |
|---|---|---|
| Datenquellen | Amazon S3, Amazon Redshift, JDBC-Quellen, die mit dem Datenkatalog kompatibel sind, und transaktionale Data-Lake-Formate wie Apache Iceberg, Apache Hudi und Delta Lake. Von AWS Lake Formation verwaltete OTF-Formate werden ebenfalls mit einigen Einschränkungen unterstützt. Amazon Athena-Ansichten, die im AWS Glue-Datenkatalog katalogisiert sind, werden nicht unterstützt. Weitere Informationen finden Sie unter Unterstützte Ressourcentypen. | Alle von AWS Glue unterstützten Datenquellen, einschließlich benutzerdefinierter Konnektoren und Konnektoren von Drittanbietern. |
| Empfehlungen für Data-Quality-Regeln | Unterstützt | Nicht unterstützt |
| DQDL-Regeln erstellen und ausführen | Unterstützt | Unterstützt |
| Auto-Scaling | Nicht unterstützt | Unterstützt |
| AWS Glue-Flex-Unterstützung | Nicht unterstützt | Unterstützt |
| Planung | Wird beim Auswerten von Data-Quality-Regeln und über Schrittfunktionen unterstützt. | Wird bei der Verwendung von Schrittfunktionen und Workflows unterstützt. |
| Identifizieren von Datensätzen, bei denen die Datenqualitätsprüfungen fehlgeschlagen sind | Nicht unterstützt | Unterstützt |
| Integration mit Amazon Eventbridge | Unterstützt | Unterstützt |
| Integration mit AWS Cloudwatch | Unterstützt | Unterstützt |
| Schreiben von Datenqualitätsergebnissen in Amazon S3 | Unterstützt | Unterstützt |
| Inkrementelle Datenqualität | Wird über Pushdown-Prädikate unterstützt | Wird über AWS Glue-Lesezeichen unterstützt |
| AWS-CloudFormation-Unterstützung | Unterstützt | Unterstützt |
| ML-gestützte Anomalieerkennung | Nicht unterstützt | Unterstützt |
| Dynamische Regeln | Nicht unterstützt | Unterstützt |
Überlegungen
Berücksichtigen Sie die folgenden Punkte, bevor Sie AWS Glue Data Quality verwenden:
-
Datenqualitätsregeln können keine verschachtelten oder Listentyp-Datenquellen auswerten. Siehe Verschachtelte Strukturen verflachen.
Terminologie
In der folgenden Liste werden Begriffe definiert, die im Zusammenhang mit AWS Glue Data Quality stehen.
- Definitionssprache für Datenqualität (DQDL)
-
Eine domainspezifische Sprache, die Sie zum Schreiben von AWS Glue-Data-Quality-Regeln verwenden können.
Weitere Informationen zu DQDL finden Sie im Referenz zu Data Quality Definition Language (DQDL)-Benutzerhandbuch.
- Datenqualität
-
Beschreibt, wie gut ein Datensatz seinen spezifischen Zweck erfüllt. AWS Glue Data Quality bewertet die Regeln anhand eines Datensatzes, um die Datenqualität zu messen. Jede Regel prüft auf bestimmte Merkmale wie Datenaktualität oder -integrität. Zur Quantifizierung der Datenqualität können Sie einen Datenqualitätswert verwenden.
- Datenqualitätswert
-
Der Prozentsatz der Datenqualitätsregeln, die bei der Auswertung eines Regelsatzes mit AWS Glue Data Quality erfolgreich sind (das Ergebnis ist wahr).
- Regel
-
Ein DQDL-Ausdruck, der Ihre Daten auf ein bestimmtes Merkmal überprüft und einen booleschen Wert zurückgibt. Weitere Informationen finden Sie unter Regelstruktur.
- Analysator
-
Ein DQDL-Ausdruck, der Datenstatistiken sammelt. Ein Analysator sammelt Datenstatistiken, die von ML-Algorithmen verwendet werden können, um Anomalien und schwer zu erkennende Datenqualitätsprobleme im Laufe der Zeit zu erkennen.
- Regelsatz
-
Eine AWS Glue-Ressource, die eine Reihe von Datenqualitätsregeln umfasst. Ein Regelsatz muss einer Tabelle im AWS Glue Data Catalog zugeordnet sein. Beim Speichern eines Regelsatzes weist AWS Glue dem Regelsatz einen Amazon-Ressourcennamen (ARN) zu.
- Datenqualitätswert
-
Der Prozentsatz der Datenqualitätsregeln, die bei der Auswertung eines Regelsatzes mit AWS Glue Data Quality erfolgreich sind (das Ergebnis ist wahr).
- Beobachtung
-
Eine von AWS Glue generierte unbestätigte Erkenntnis, die durch die Analyse von Datenstatistiken gewonnen wird, die im Laufe der Zeit anhand von Regeln und Analysatoren erfasst wurden.
Grenzwerte
Einschränkungen des AWS Glue-Data-Quality-Diensts:
-
Ein Regelsatz kann 2.000 Regeln enthalten. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.
-
Die Größe des Regelsatzes beträgt 65 KB. Wenn Ihre Regelsätze größer sind, empfehlen wir, sie in mehrere Regelsätze aufzuteilen.
-
AWS Glue Data Quality sammelt Statistiken, wenn Sie eine Regel oder einen Analyzer erstellen. Das Speichern dieser Statistiken ist mit keinen Kosten verbunden. Es besteht jedoch ein Limit von 100.000 Statistiken pro Konto und diese Statistiken werden maximal zwei Jahre lang aufbewahrt.
Versionshinweise für AWS Glue Data Quality
In diesem Thema werden die in AWS Glue Data Quality eingeführten Features beschrieben.
Allgemeine Verfügbarkeit: neue Features
Die folgenden neuen Features sind mit der allgemeinen Verfügbarkeit von AWS Glue Data Quality verfügbar:
Die Möglichkeit, zu identifizieren, welche Datensätze die Datenqualitätsprüfungen nicht bestanden haben, wird jetzt in AWS Glue Studio unterstützt
Neue Regeltypen für die Datenqualität, wie z. B. die Validierung der referenziellen Integrität von Daten zwischen zwei Datensätzen, der Vergleich von Daten zwischen zwei Datensätzen und Datentypprüfungen
Verbesserte Benutzererfahrung im AWS Glue Data Catalog
Unterstützung für Apache Iceberg, Apache Hudi und Delta Lake
Unterstützung für Amazon Redshift
Vereinfachte Benachrichtigung mit Amazon Eventbridge
AWS-CloudFormation-Unterstützung für die Erstellung von Regelsätzen
Leistungsverbesserungen: Caching-Option in ETL und AWS Glue Studio für schnellere Leistung bei der Bewertung der Datenqualität
27. November 2023 (Vorschau)
-
ML-gestützte Funktionen zur Erkennung von Anomalien sind jetzt in AWS Glue ETL und AWS Glue Studio verfügbar. Damit können Sie jetzt Anomalien und schwer zu erkennende Datenqualitätsprobleme erkennen.
-
Mit dynamischen Regeln können Sie dynamische Schwellenwerte angeben (z. B:
RowCount> avg(last(10)))
12. März 2024
-
DQDL-Verbesserungen
26. Juni 2024
-
DQDL-Verbesserungen
-
DQDL unterstützt jetzt die WHERE-Klausel, sodass Sie Daten filtern können, bevor Sie DQ-Regeln anwenden.
-
7. August 2024
-
Anomalieerkennung und dynamische Regeln sind jetzt allgemein verfügbar.
22. November 2024
-
Neue Regeltypen für die Verwaltung der Datenqualität Ihrer Dateien
-
Standardmäßige Datenqualitätsprüfungen in Visual ETL-Aufträgen
6. Dezember 2024
-
AWS Glue Data Quality unterstützt jetzt Amazon SageMaker AI-LakeHouse-Tabellen und von AWS Lake Formation verwaltete Iceberg-, Delta- und HUDI-Tabellen in AWS Glue ETL 5.0.
7. Juli 2025
-
AWS Glue Data Quality unterstützt jetzt Amazon-S3-Tabellen, RMS, Lakehouse und von AWS Lake Formation verwaltete Iceberg-Tabellen im AWS Glue-Datenkatalog.