Remplissage du Catalogue de données AWS Glue - AWS Glue

Remplissage du Catalogue de données AWS Glue

Vous pouvez remplir l’AWS Glue Data Catalog à l’aide des méthodes suivantes :

  • AWS Glue crawler : un AWS Glue crawler peut automatiquement découvrir et cataloguer des sources de données telles que des bases de données, des lacs de données et des données de streaming. Les robots constituent la méthode la plus courante et la plus recommandée pour remplir le catalogue de données, car ils peuvent automatiquement découvrir et déduire les métadonnées à partir d’une grande variété de sources de données.

  • Ajout manuel de métadonnées : vous pouvez définir manuellement les bases de données, les tables et les détails de connexion et les ajouter au catalogue de données à l’aide de la console AWS Glue, de la console Lake Formation, de l’AWS CLI ou des API AWS Glue. La saisie manuelle est utile lorsque vous souhaitez cataloguer des sources de données qui ne peuvent pas être analysées.

  • Intégration à d’autres services AWS : vous pouvez remplir le catalogue de données avec des métadonnées provenant de services comme AWS Lake Formation et Amazon Athena. Ces services peuvent découvrir et enregistrer des sources de données dans le catalogue de données.

  • Remplissage à partir d’un référentiel de métadonnées existant : si vous disposez d’un magasin de métadonnées existant tel qu’Apache Hive Metastore, vous pouvez utiliser AWS Glue pour importer ces métadonnées dans le catalogue de données. Pour plus d'informations, consultez Migration entre le métastore Hive et le AWS Glue Data Catalog sur GitHub.