Découverte et catalogage des données dans AWS Glue

AWS Glue Data Catalog Il s'agit d'un référentiel centralisé qui stocke les métadonnées relatives aux ensembles de données de votre organisation. Il sert d’index pour l’emplacement, le schéma et les métriques d’exécution de vos sources de données. Les métadonnées sont stockées dans des tables de métadonnées, chaque table représentant un seul entrepôt de données.

Vous pouvez remplir le catalogue de données à l’aide d’un robot, qui analyse automatiquement vos sources de données et extrait les métadonnées. Un robot peut se connecter à des sources de données internes (basées sur AWS) et externes à AWS.

Pour plus d’informations sur les sources de données prises en charge, consultez Sources de données prises en charge pour l’indexation de site web.

Vous pouvez également créer des tables manuellement dans le catalogue de données en définissant la structure des tables, le schéma et la structure de partitionnement en fonction de vos besoins spécifiques.

Pour plus d’informations sur la création manuelle de tables de métadonnées, consultez Définition manuelle des métadonnées.

Les informations du catalogue de données vous permettent de créer et de surveiller vos tâches ETL. Le catalogue de données s'intègre à d'autres services d' AWS analyse, fournissant une vue unifiée des sources de données, ce qui facilite la gestion et l'analyse des données.

Amazon Athena : stockez et interrogez les métadonnées des tables dans le catalogue de données pour les données Amazon S3 à l’aide de SQL.
AWS Lake Formation — Définissez et gérez de manière centralisée des politiques d'accès aux données précises et auditez l'accès aux données.
Amazon EMR : accédez aux sources de données définies dans le catalogue de données pour le traitement de big data.
Amazon SageMaker AI — Créez, formez et déployez des modèles d'apprentissage automatique rapidement et en toute confiance.

Principales fonctionnalités du catalogue de données

Les principaux aspects du catalogue de données sont les suivants.

Référentiel de métadonnées

Le catalogue de données sert de référentiel de métadonnées central, stockant des informations sur l’emplacement, le schéma et les propriétés de vos sources de données. Ces métadonnées sont organisées en bases de données et en tables, comme dans un catalogue de base de données relationnelle traditionnel.

Découverte automatique des données

Les AWS Glue crawler peuvent automatiquement découvrir et cataloguer des sources de données nouvelles ou mises à jour, réduisant ainsi les frais généraux liés à la gestion manuelle des métadonnées et garantissant la mise à jour de votre catalogue de données. En cataloguant vos sources de données, le catalogue de données permet aux utilisateurs et aux applications de découvrir et de comprendre plus facilement les ressources de données disponibles au sein de votre organisation, et favorise ainsi la réutilisation des données et la collaboration.

Le catalogue de données prend en charge un large éventail de sources de données, notamment Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive, etc. Il peut automatiquement déduire et stocker les métadonnées de ces sources à l'aide de AWS Glue crawler s.

Pour plus d'informations, voir,Utilisation de robots pour alimenter le catalogue de données.

Gestion des schémas

Le catalogue de données capture et gère automatiquement le schéma de vos sources de données, y compris l’inférence, l’évolution et la gestion des versions des schémas. Vous pouvez mettre à jour votre schéma et vos partitions dans le catalogue de données à l'aide de tâches AWS Glue ETL.

Optimisation des tables

Pour améliorer les performances de lecture des services AWS d'analyse tels qu'Amazon Athena et Amazon EMR, ainsi que pour les tâches AWS Glue ETL, le catalogue de données fournit un compactage géré (un processus qui compacte de petits objets Amazon S3 en objets plus grands) pour les tables Iceberg du catalogue de données. Vous pouvez utiliser une AWS Glue console, une AWS Lake Formation console ou une AWS API pour activer ou désactiver le compactage de tables Iceberg individuelles figurant dans le catalogue de données. AWS CLI

Pour de plus amples informations, veuillez consulter Optimisation des tables Iceberg.

Statistiques de colonne

Vous pouvez calculer des statistiques de colonne pour des tables du catalogue des données dans des formats de données tels que Parquet, ORC, JSON, ION, CSV et XML sans définir des pipelines de données supplémentaires. Les statistiques de colonne vous aident à comprendre les profils de données en obtenant des informations sur les valeurs d'une colonne. Le catalogue de données prend en charge la génération de statistiques pour les valeurs de colonne telles que la valeur minimale, la valeur maximale, le total des valeurs nulles, le total des valeurs distinctes, la longueur moyenne des valeurs et le nombre total d’occurrences de valeurs vraies.

Pour de plus amples informations, veuillez consulter Optimisation des performances des requêtes à l’aide des statistiques de colonne.

Traçabilité des données

Le catalogue de données conserve un enregistrement des transformations et des opérations effectuées sur vos données, fournissant des informations sur la traçabilité des données. Ces informations de traçabilité sont précieuses pour la vérification, la conformité et la compréhension de la provenance des données.

Intégration avec d'autres AWS services

Le catalogue de données s'intègre parfaitement à d'autres AWS services AWS Lake Formation, tels qu'Amazon Athena, Amazon Redshift Spectrum et Amazon EMR. Cette intégration vous permet d’interroger et d’analyser des données dans différents entrepôts de données à l’aide d’une couche de métadonnées unique et cohérente.

Sécurité et contrôle d’accès

AWS Glue s'intègre AWS Lake Formation pour prendre en charge un contrôle d'accès précis aux ressources du catalogue de données, ce qui vous permet de gérer les autorisations et de sécuriser l'accès à vos actifs de données en fonction des politiques et des exigences de votre organisation. AWS Glue s'intègre à AWS Key Management Service (AWS KMS) pour chiffrer les métadonnées stockées dans le catalogue de données.

Contexte commercial et recherche sémantique (version préliminaire)

Enrichissez les ressources du catalogue de données avec des termes de glossaire, des champs de métadonnées personnalisés et des ressources de compétences pour rendre les données plus faciles à découvrir. Utilisez l'API AWS Glue de recherche pour rechercher des actifs par signification sémantique, en plus de la correspondance exacte des mots clés. Les agents d'IA peuvent utiliser les actifs de compétences pour récupérer le contexte du domaine, tel que les modèles de requêtes, les règles d'utilisation et les définitions de données.

Pour de plus amples informations, veuillez consulter Ajouter un contexte commercial.

Vues matérialisées

Le catalogue de données prend en charge les vues matérialisées Apache Iceberg, qui sont des tables gérées qui stockent les résultats précalculés des requêtes SQL et s'actualisent automatiquement à mesure que les données sources sous-jacentes changent. Les vues matérialisées simplifient les pipelines de transformation des données et accélèrent les performances des requêtes en éliminant les calculs redondants.

Vous pouvez créer des vues matérialisées à l'aide d'Apache Spark SQL dans AWS Glue version 5.1 et ultérieure, Amazon EMR version 7.12.0 et versions ultérieures, et Amazon Athena. Le catalogue de données surveille automatiquement les tables Apache Iceberg sources et actualise les vues matérialisées à l'aide d'une infrastructure informatique gérée. Les moteurs Spark de AWS Glue, Amazon EMR et Amazon Athena peuvent automatiquement réécrire les requêtes afin d'utiliser des vues matérialisées lorsqu'elles offrent de meilleures performances.

Les vues matérialisées sont stockées sous forme de tables Apache Iceberg dans des compartiments Amazon S3 Tables ou dans des compartiments à usage général Amazon S3 au sein de votre compte, ce qui les rend accessibles depuis plusieurs moteurs de requêtes. Le catalogue de données gère tous les aspects du cycle de vie des vues matérialisées, notamment la planification automatique des actualisations, les mises à jour incrémentielles et la gestion des métadonnées.

Pour plus d'informations, consultez les sections Utilisation de vues matérialisées avec AWS Glue et Utilisation de vues matérialisées avec Amazon EMR.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration du réseau pour le développement

Remplissage du catalogue de données