Intégration avec d’autres services AWS - AWS Glue

Intégration avec d’autres services AWS

Bien que vous puissiez utiliser des AWS Glue crawler pour remplir l’AWS Glue Data Catalog, plusieurs services AWS peuvent automatiquement s’intégrer au catalogue et le remplir pour vous. Les sections suivantes fournissent plus d’informations sur les cas d’utilisation spécifiques pris en charge par les services AWS qui peuvent remplir le catalogue de données.

AWS Lake Formation

AWS Lake Formation est un service qui simplifie la configuration d’un lac de données sécurisé dans AWS. Lake Formation est basé sur AWS Glue, tandis que Lake Formation et AWS Glue partagent le même AWS Glue Data Catalog. Vous pouvez enregistrer l’emplacement de vos données Amazon S3 auprès de Lake Formation et utiliser la console Lake Formation pour créer des bases de données et des tables dans le Catalogue de données AWS Glue, définir des stratégies d’accès aux données et vérifier l’accès aux données dans votre lac de données à partir d’un emplacement central. Vous pouvez utiliser le contrôle précis des accès de Lake Formation pour gérer les ressources de votre catalogue de données existantes et les emplacements de données Amazon S3.

Avec les données enregistrées auprès de Lake Formation, vous pouvez partager en toute sécurité les ressources du catalogue de données entre les principaux IAM, les comptes AWS, les organisations AWS et les unités organisationnelles.

Pour plus d’informations sur la création de ressources de catalogue de données à l’aide de Lake Formation, consultez Creating Data Catalog tables and databases dans le Guide du développeur AWS Lake Formation.

Amazon Athena

Amazon Athena utilise le catalogue de données pour stocker et récupérer les métadonnées des tables pour les données Amazon S3 de votre compte AWS. Les métadonnées de la table permettent au moteur de requête Athena de savoir comment trouver, lire et traiter les données que vous souhaitez interroger.

Vous pouvez remplir l’AWS Glue Data Catalog en utilisant directement les instructions CREATE TABLE Athena. Vous pouvez définir et remplir manuellement le schéma et les métadonnées de partition dans le catalogue de données sans avoir à exécuter un robot.

  1. Dans la console Athena, créez une base de données qui stockera les métadonnées de la table dans le catalogue de données.

  2. Utilisez l’instruction CREATE EXTERNAL TABLE pour définir le schéma de votre source de données.

  3. Utilisez la clause PARTITIONED BY pour définir les clés de partition si vos données sont partitionnées.

  4. Utilisez la clause LOCATION pour spécifier le chemin d’accès à Amazon S3 où vos fichiers de données réels sont stockés.

  5. Exécutez l'instruction CREATE TABLE.

    Cette requête crée les métadonnées de table dans le catalogue de données en fonction du schéma et des partitions que vous avez définis, sans réellement analyser les données.

Vous pouvez interroger la table dans Athena, qui utilisera les métadonnées du catalogue de données pour accéder à vos fichiers de données et les interroger dans Amazon S3.

Pour plus d’informations, consultez Creating databases and tables dans le Guide de l’utilisateur Amazon Athena.