Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Qualité des données de AWS Glue
La qualité des données de AWS Glue vous permet de mesurer et de contrôler la qualité de vos données afin de prendre de bonnes décisions métier. Reposant sur le cadre open source DeeQu, la qualité des données de AWS Glue offre une expérience gérée et sans serveur. AWS Glue La qualité des données fonctionne avec le langage DQDL (Data Quality Definition Language), qui est un langage spécifique au domaine que vous utilisez pour définir les règles de qualité des données. Pour en savoir plus sur le langage DQDL et les types de règles pris en charge, consultez Référence DQDL (Data Quality Definition Language).
Pour plus d'informations sur les produits et les tarifs, consultez la page de service relative à AWS Glue Data Quality
Avantages et fonctionnalités clés
Les avantages et les principales fonctionnalités de Qualité des données d’AWS Glue sont les suivants :
-
Sans serveur : il n’y a pas d’installation, de correctifs ou de maintenance.
-
Démarrer rapidement : la qualité des données de AWS Glue analyse rapidement vos données et crée des règles de qualité des données pour vous. Vous pouvez commencer en deux clics : « Créer des règles de qualité des données → Recommander des règles ».
-
Détecter les problèmes de qualité des données : utilisez le machine learning (ML) pour détecter les anomalies et les problèmes de qualité des données difficiles à détecter.
-
Improviser vos règles : avec plus de 25 règles DQ prêtes à l'emploi, vous pouvez créer des règles adaptées à vos besoins.
-
Évaluer la qualité et prendre des décisions métier en toute confiance : une fois les règles évaluées, vous obtenez un score de qualité des données qui vous donne une vue d'ensemble de l'état de vos données. Utilisez le score de qualité des données pour prendre des décisions métier en toute confiance.
-
Identifier les données défectueuses : la qualité des données de AWS Glue vous aide à identifier les enregistrements exacts qui ont entraîné une baisse de vos scores de qualité. Identifiez-les facilement, mettez-les en quarantaine et corrigez-les.
-
Paiement à l’utilisation : aucune licence annuelle n’est nécessaire pour utiliser la Qualité des données d’AWS Glue.
-
Pas de blocage : la qualité des données de AWS Glue repose sur l'open source DeeQu, ce qui vous permet de conserver les règles que vous créez dans un langage ouvert.
-
Contrôles de qualité des données : vous pouvez appliquer des contrôles de qualité des données sur Data Catalog et sur les pipelines ETL AWS Glue, ce qui vous permet de gérer la qualité des données au repos et en transit.
-
Détection de la qualité des données basée sur le ML : utilisez le machine learning (ML) pour détecter les anomalies et les problèmes de qualité des données difficiles à détecter.
-
Langage ouvert pour exprimer les règles : garantit que les règles de qualité des données sont créées de manière cohérente et simple. Les utilisateurs professionnels peuvent facilement exprimer les règles de qualité des données dans un langage clair qu’ils peuvent comprendre. Pour les ingénieurs, ce langage offre la flexibilité nécessaire pour générer du code, mettre en œuvre un contrôle de version cohérent et automatiser les déploiements.
Fonctionnement
Il existe deux points d'entrée pour la qualité des données de AWS Glue : AWS Glue Data Catalog et les tâches ETL AWS Glue. Cette section fournit un aperçu des cas d'utilisation et des fonctionnalités AWS Glue que chaque point d'entrée prend en charge.
Qualité des données pour AWS Glue Data Catalog
La qualité des données de AWS Glue évalue les objets stockés dans AWS Glue Data Catalog. Cela permet aux personnes qui ne codent pas de configurer facilement des règles de qualité des données. Ces personas incluent les gestionnaires de données et des analystes métier.
Vous pouvez choisir cette option pour les cas d'utilisation suivants :
-
Vous souhaitez effectuer des tâches de qualité des données sur des jeux de données que vous avez déjà catalogués dans AWS Glue Data Catalog.
-
Vous travaillez sur la gouvernance des données et avez besoin d'identifier ou d'évaluer en permanence les problèmes de qualité des données dans votre lac de données.
Vous pouvez gérer la qualité des données du catalogue de données à l'aide des interfaces suivantes :
-
La console de gestion AWS Glue
-
API AWS Glue
Pour commencer à utiliser la qualité des données de AWS Glue pour AWS Glue Data Catalog, consultez Premiers pas avec AWS Glue Data Quality pour le Data Catalog.
Qualité des données pour les tâches ETL AWS Glue
La qualité des données de AWS Glue pour les tâches ETL AWS Glue vous permet d'effectuer des tâches proactives de qualité des données. Les tâches proactives vous aident à identifier et à filtrer les données défectueuses avant de charger un jeu de données dans votre lac de données.
Vous pouvez choisir la qualité des données pour les tâches ETL dans les cas d'utilisation suivants :
-
Vous souhaitez intégrer des tâches de qualité des données dans vos tâches ETL
-
Vous souhaitez écrire du code qui définit les tâches de qualité des données dans les scripts ETL
-
Vous souhaitez gérer la qualité des données qui circulent dans vos pipelines de données visuels
Vous pouvez gérer la qualité des données pour les tâches ETL à l'aide des interfaces suivantes :
-
AWS Glue Studio, bloc-notes AWS Glue Studio et sessions interactives AWS Glue
-
Bibliothèques AWS Glue pour les scripts ETL
-
API AWS Glue
Pour commencer à utiliser la qualité des données pour les tâches ETL, consultez Tutorial: Getting started with Data Quality dans le Guide de l'utilisateur AWS Glue Studio.
Comparaison entre la qualité des données du catalogue de données et la qualité des données des tâches ETL
Ce tableau fournit un aperçu des fonctionnalités prises en charge par chaque point d'entrée pour la qualité des données de AWS Glue.
| Fonctionnalité | Qualité des données pour le catalogue de données | Qualité des données pour les tâches ETL |
|---|---|---|
| Sources de données | Les sources Amazon S3, Amazon Redshift, JDBC compatibles avec le catalogue de données et les formats de lacs de données transactionnels tels qu’Apache Iceberg, Apache Hudi et Delta Lake. Les formats OTF gérés par AWS Lake Formation sont également pris en charge avec certaines limitations. Les vues Amazon Athena cataloguées dans le Catalogue de données AWS Glue ne sont pas prises en charge. Veuillez consulter Types de sources pris en charge. | Toutes les sources de données sont prises en charge par AWS Glue, y compris les connecteurs personnalisés et les connecteurs tiers. |
| Recommandations règles de la qualité des données | Pris en charge | Non pris en charge |
| Rédiger et appliquer les règles DQDL | Pris en charge | Pris en charge |
| Auto scaling (Mise à l'échelle automatique) | Non pris en charge | Pris en charge |
| Prise en charge de AWS Glue Flex | Non pris en charge | Pris en charge |
| Planification | Pris en charge lors de l'évaluation des règles de la qualité des données et via Step Functions. | Pris en charge lors de l'utilisation des Step Functions et des flux de travail. |
| Identification des enregistrements ayant échoué aux contrôles de qualité des données | Non pris en charge | Pris en charge |
| Intégration à Amazon EventBridge | Pris en charge | Pris en charge |
| Intégration à AWS Cloudwatch | Pris en charge | Pris en charge |
| Écrire les résultats de la qualité des données dans Amazon S3 | Pris en charge | Pris en charge |
| Qualité de données incrémentielle | Pris en charge par le pushdown de prédicats | Pris en charge par les signets AWS Glue |
| Prise en charge d'AWS CloudFormation | Pris en charge | Pris en charge |
| Détection des anomalies basée sur le ML | Non pris en charge | Pris en charge |
| Règles dynamiques | Non pris en charge | Pris en charge |
Considérations
Prenez en compte les éléments suivants avant d’utiliser la Qualité des données d’AWS Glue :
-
Les règles de qualité des données ne peuvent pas évaluer les sources de données imbriquées ou de type liste. Consultez Aplatissement de structs imbriqués.
Terminologie
Le tableau suivant définit les termes liés à AWS Glue Data Quality.
- DQDL (Data Quality Definition Language)
-
Langage spécifique au domaine que vous pouvez utiliser pour rédiger des règles AWS Glue Data Quality.
Pour en savoir plus sur DQDL, consultez le guide Référence DQDL (Data Quality Definition Language).
- qualité des données
-
Décrit dans quelle mesure un jeu de données répond à son objectif. AWS Glue Data Quality évalue les règles par rapport à un jeu de données afin de mesurer la qualité des données. Chaque règle vérifie des caractéristiques particulières comme l'actualisation ou l'intégrité des données. Pour quantifier la qualité des données, vous pouvez utiliser un score de qualité des données.
- score de qualité des données
-
Pourcentage de règles de qualité des données qui sont respectées (génèrent « true ») lorsque vous évaluez un jeu de règles avec AWS Glue Data Quality.
- règle
-
Expression DQDL qui recherche une caractéristique spécifique dans vos données et renvoie une valeur booléenne. Pour plus d’informations, consultez Structure des règles.
- analyseur
-
Expression DQDL qui rassemble des statistiques de données. Un analyseur rassemble des statistiques de données qui peuvent être utilisées par les algorithmes ML pour détecter les anomalies et les problèmes de qualité des données difficiles à détecter au fil du temps.
- jeu de règles
-
Ressource AWS Glue qui comprend un jeu de règles de qualité des données. Un jeu de règles doit être associé à une table dans AWS Glue Data Catalog. Lorsque vous enregistrez un jeu de règles, AWS Glue lui attribue un Amazon Resource Name (ARN).
- score de qualité des données
-
Pourcentage de règles de qualité des données qui sont respectées (génèrent « true ») lorsque vous évaluez un jeu de règles avec AWS Glue Data Quality.
- observation
-
Un aperçu non confirmé généré par AWS Glue en analysant les statistiques de données rassemblées à partir de règles et d’analyseurs au fil du temps.
Limites
Limites du service Qualité des données d’AWS Glue :
-
Un ensemble de règles peut contenir 2 000 règles. Si vos ensembles de règles sont plus importants, nous vous recommandons de les diviser en plusieurs ensembles de règles.
-
La taille de l’ensemble de règles est de 65 Ko. Si vos ensembles de règles sont plus importants, nous vous recommandons de les diviser en plusieurs ensembles de règles.
-
La Qualité des données d’AWS Glue collecte des statistiques lorsque vous créez une règle ou un analyseur. Le stockage de ces statistiques est gratuit. Cependant, il existe une limite de 100 000 statistiques par compte, et ces statistiques seront conservées pendant un maximum de deux ans.
Notes de mises à jour pour la qualité des données de AWS Glue
Cette rubrique décrit les fonctionnalités introduites dans la qualité des données de AWS Glue.
Disponibilité générale : nouvelles fonctionnalités
Les nouvelles fonctionnalités suivantes sont disponibles avec la disponibilité générale de la qualité des données de AWS Glue :
La possibilité d'identifier les enregistrements qui ont échoué aux contrôles de qualité des données est désormais prise en charge par AWS Glue Studio.
Nouveaux types de règles de qualité des données tels que la validation de l'intégrité référentielle des données entre deux jeux de données, la comparaison des données entre deux jeux de données et les vérifications du type de données.
Expérience utilisateur améliorée dans AWS Glue Data Catalog
Prise en charge d'Apache Iceberg, d'Apache Hudi et de Delta Lake
Prise en charge d'Amazon Redshift
Notification simplifiée avec Amazon EventBridge
Prise en charge d'AWS CloudFormation pour la création d'ensembles de règles
Améliorations des performances : option de mise en cache dans ETL et AWS Glue Studio pour des performances plus rapides lors de l'évaluation de la qualité des données.
27 novembre 2023 (aperçu)
-
Les fonctionnalités de détection d’anomalies basées sur le ML sont désormais disponibles dans AWS Glue ETL et AWS Glue Studio. Grâce à cela, vous pouvez désormais détecter les anomalies et les problèmes de qualité des données difficiles à détecter.
12 mars 2024
-
Améliorations DQDL
26 juin 2024
-
Améliorations DQDL
-
DQDL prend désormais en charge la clause Where afin que vous puissiez filtrer les données avant d’appliquer les règles DQ.
-
7 août 2024
-
La détection des anomalies et les règles dynamiques sont désormais généralement disponibles
22 novembre 2024
-
Nouveaux types de règles pour gérer la qualité des données de vos fichiers
-
Contrôles de qualité des données par défaut dans les tâches ETL visuel
6 décembre 2024
-
La Qualité des données d’AWS Glue prend désormais en charge les tables Amazon SageMaker AI LakeHouse et les tables Iceberg, Delta et HUDI gérées par AWS Lake Formation dans AWS Glue ETL 5.0.
7 juillet 2025
-
La Qualité des données d’AWS Glue prend désormais en charge les tableaux Amazon S3, et les tables RMS, Lakehouse et gérées par AWS Lake Formation dans le Catalogue de données AWS Glue.