Définition manuelle des métadonnées - AWS Glue

Définition manuelle des métadonnées

Le Catalogue de données AWS Glue est un référentiel central qui stocke les métadonnées relatives à vos sources de données et aux jeux de données. Bien qu’un robot puisse automatiquement explorer et renseigner les métadonnées des sources de données prises en charge, il existe certains scénarios dans lesquels vous devrez peut-être définir les métadonnées manuellement dans le catalogue de données :

  • Formats de données non pris en charge : si certaines de vos sources de données ne sont pas prises en charge par le robot, vous devez définir manuellement les métadonnées de ces sources de données dans le catalogue de données.

  • Exigences relatives aux métadonnées personnalisées : AWS Glue crawler déduit les métadonnées en fonction de règles et de conventions prédéfinies. Si vous avez des exigences spécifiques en matière de métadonnées qui ne sont pas couvertes par les métadonnées déduites d’AWS Glue crawler, vous pouvez définir manuellement les métadonnées pour répondre à vos besoins.

  • Gouvernance des données et normalisation : dans certains cas, vous souhaiterez peut-être mieux contrôler les définitions des métadonnées pour des raisons de gouvernance, de conformité ou de sécurité des données. La définition manuelle des métadonnées vous permet de vous assurer que celles-ci sont conformes aux normes et aux politiques de votre organisation.

  • Espace réservé pour une future ingestion de données : si certaines de vos sources de données ne sont pas immédiatement disponibles ou accessibles, vous pouvez créer des tables de schéma vides en tant qu’espaces réservés. Une fois les sources de données disponibles, vous pouvez remplir les tables avec les données réelles, tout en conservant la structure prédéfinie.

Pour définir les métadonnées manuellement, vous pouvez utiliser la console AWS Glue, la console Lake Formation, l’API AWS Glue ou l’AWS Command Line Interface (AWS CLI). Vous pouvez créer des bases de données, des tables et des partitions, et spécifier des propriétés de métadonnées telles que des noms de colonnes, des types de données, des descriptions et d’autres attributs.