Découverte et catalogage des données dans AWS Glue
AWS Glue Data Catalog est un référentiel centralisé qui stocke les métadonnées relatives aux jeux de données de votre organisation. Il sert d’index pour l’emplacement, le schéma et les métriques d’exécution de vos sources de données. Les métadonnées sont stockées dans des tables de métadonnées, chaque table représentant un seul entrepôt de données.
Vous pouvez remplir le catalogue de données à l’aide d’un robot, qui analyse automatiquement vos sources de données et extrait les métadonnées. Un robot peut se connecter à des sources de données internes (basées sur AWS) et externes à AWS.
Pour plus d’informations sur les sources de données prises en charge, consultez Sources de données prises en charge pour l’indexation de site web.
Vous pouvez également créer des tables manuellement dans le catalogue de données en définissant la structure des tables, le schéma et la structure de partitionnement en fonction de vos besoins spécifiques.
Pour plus d’informations sur la création manuelle de tables de métadonnées, consultez Définition manuelle des métadonnées.
Les informations du catalogue de données vous permettent de créer et de surveiller vos tâches ETL. Le catalogue de données s’intègre à d’autres services d’analytique AWS, fournissant une vue unifiée des sources de données, ce qui facilite la gestion et l’analyse des données.
-
Amazon Athena : stockez et interrogez les métadonnées des tables dans le catalogue de données pour les données Amazon S3 à l’aide de SQL.
-
AWS Lake Formation : définissez et gérez de manière centralisée des stratégies d’accès aux données précises et vérifiez l’accès aux données.
-
Amazon EMR : accédez aux sources de données définies dans le catalogue de données pour le traitement de big data.
-
Amazon SageMaker AI : créez, entraînez et déployez des modèles de machine learning rapidement et en toute confiance.
Principales fonctionnalités du catalogue de données
Les principaux aspects du catalogue de données sont les suivants.
- Référentiel de métadonnées
-
Le catalogue de données sert de référentiel de métadonnées central, stockant des informations sur l’emplacement, le schéma et les propriétés de vos sources de données. Ces métadonnées sont organisées en bases de données et en tables, comme dans un catalogue de base de données relationnelle traditionnel.
- Découverte automatique des données
-
Les AWS Glue crawler peuvent automatiquement découvrir et cataloguer des sources de données nouvelles ou mises à jour, réduisant ainsi les frais généraux liés à la gestion manuelle des métadonnées et garantissant la mise à jour de votre catalogue de données. En cataloguant vos sources de données, le catalogue de données permet aux utilisateurs et aux applications de découvrir et de comprendre plus facilement les ressources de données disponibles au sein de votre organisation, et favorise ainsi la réutilisation des données et la collaboration.
Le catalogue de données prend en charge un large éventail de sources de données, notamment Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive, etc. Il peut automatiquement déduire et stocker les métadonnées de ces sources à l’aide d’AWS Glue crawler.
Pour plus d’informations, consultez Utilisation de robots pour alimenter le catalogue de données .
- Gestion des schémas
-
Le catalogue de données capture et gère automatiquement le schéma de vos sources de données, y compris l’inférence, l’évolution et la gestion des versions des schémas. Vous pouvez mettre à jour votre schéma et vos partitions dans le catalogue de données à l’aide de tâches ETL AWS Glue.
- Optimisation des tables
-
Pour améliorer les performances de lecture des services d’analytique AWS tels qu’Amazon Athena, Amazon EMR et les tâches ETL AWS Glue, le catalogue de données fournit un compactage géré (un processus qui compacte de petits objets Amazon S3 en objets plus grands) pour les tables Iceberg dans le catalogue de données. Vous pouvez utiliser la console AWS Glue, la console AWS Lake Formation, l’AWS CLI ou l’API AWS pour activer ou désactiver le compactage des tables Iceberg individuelles figurant dans le catalogue de données.
Pour plus d’informations, consultez Optimisation des tables Iceberg.
- Statistiques de colonne
-
Vous pouvez calculer des statistiques de colonne pour des tables du catalogue des données dans des formats de données tels que Parquet, ORC, JSON, ION, CSV et XML sans définir des pipelines de données supplémentaires. Les statistiques de colonne vous aident à comprendre les profils de données en obtenant des informations sur les valeurs d'une colonne. Le catalogue de données prend en charge la génération de statistiques pour les valeurs de colonne telles que la valeur minimale, la valeur maximale, le total des valeurs nulles, le total des valeurs distinctes, la longueur moyenne des valeurs et le nombre total d’occurrences de valeurs vraies.
Pour plus d’informations, consultez Optimisation des performances des requêtes à l’aide des statistiques de colonne.
- Traçabilité des données
-
Le catalogue de données conserve un enregistrement des transformations et des opérations effectuées sur vos données, fournissant des informations sur la traçabilité des données. Ces informations de traçabilité sont précieuses pour la vérification, la conformité et la compréhension de la provenance des données.
- Intégration à d'autres services AWS
-
Le catalogue de données s’intègre parfaitement à d’autres services AWS, comme AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum et Amazon EMR. Cette intégration vous permet d’interroger et d’analyser des données dans différents entrepôts de données à l’aide d’une couche de métadonnées unique et cohérente.
- Sécurité et contrôle d'accès
-
AWS Glue s’intègre à AWS Lake Formation afin de prendre en charge le contrôle précis des accès pour les ressources du catalogue de données, ce qui vous permet de gérer les autorisations et de sécuriser l’accès à vos ressources de données en fonction des politiques et des exigences de votre organisation. AWS Glue s’intègre à AWS Key Management Service (AWS KMS) pour chiffrer les métadonnées stockées dans le catalogue de données.