Composants AWS Glue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Composants AWS Glue

AWS Glue fournit une console et des opérations d’API pour configurer et gérer votre charge de travail ETL. Vous pouvez utiliser les opérations d’API à travers plusieurs kits SDK propres à chaque langage et via l’AWS Command Line Interface (AWS CLI). Pour plus d’informations sur l’utilisation de la AWS CLI, veuillez consulter la Référence sur la commande de la AWS CLI.

AWS Glue utilise l’AWS Glue Data Catalog pour stocker les métadonnées relatives aux sources de données, transformations et cibles. Le Catalogue de données est un remplacement instantané du métastore Apache Hive. Le AWS Glue Jobs system fournit une infrastructure gérée pour la définition, la planification et l’exécution des opérations ETL sur vos données. Pour plus d’informations sur l’API AWS Glue, consultez API AWS Glue.

Console AWS Glue

Vous utilisez la console AWS Glue pour définir et orchestrer votre flux de travail ETL. La console appelle plusieurs opérations d’API dans l’AWS Glue Data Catalog et le AWS Glue Jobs system pour effectuer les tâches suivantes :

  • Définir des objets AWS Glue tels que les tâches, les tables, les crawlers et les connexions.

  • Planifier l’exécution des crawlers.

  • Définir les événements ou planifications des déclencheurs de tâche.

  • Rechercher et filtrer les listes d’objets AWS Glue.

  • Modifier les scripts de transformation.

AWS Glue Data Catalog

Le AWS Glue Data Catalog est votre centre de stockage de métadonnées techniques persistantes dans le cloud AWS.

Chaque compte AWS possède un AWS Glue Data Catalog par région AWS. Chaque catalogue de données est un ensemble hautement évolutif de tableaux organisés en bases de données. Un tableau est la représentation des métadonnées d’un ensemble de données structurées ou semi-structurées stockées dans des sources telles qu’Amazon RDS, Apache Hadoop Distributed File System, Amazon OpenSearch Service, etc. AWS Glue Data Catalog fournit un référentiel uniforme où des systèmes hétérogènes peuvent stocker et rechercher des métadonnées pour suivre les données des silos. Vous pouvez ensuite utiliser les métadonnées pour interroger et transformer ces données de manière cohérente dans une grande variété d’applications.

Vous utilisez le catalogue de données avec des politiques AWS Identity and Access Management et Lake Formation pour contrôler l’accès aux tableaux et aux bases de données. Pour ce faire, vous pouvez autoriser différents groupes de votre entreprise à publier les données en toute sécurité à l’échelle de l’organisation tout en protégeant au maximum les informations sensibles.

Le catalogue de données, avec CloudTrail et Lake Formation, vous donne également de larges capacités d’audit et de gouvernance, avec le suivi des modifications de schéma et les contrôles d’accès aux données. Cela permet de s’assurer que les données ne sont pas modifiées de façon inappropriée ou partagées par inadvertance.

Pour plus d’informations sur la sécurisation et l’audit du AWS Glue Data Catalog, consultez :

Ci-après d’autres services AWS et projets open source qui utilisent AWS Glue Data Catalog :

Crawlers et classifieurs AWS Glue

AWS Glue vous permet également de configurer les crawlers qui peuvent analyser les données de tous les types de référentiel, les classer, en extraire les informations sur le schéma et stocker les métadonnées automatiquement dans l’AWS Glue Data Catalog. AWS Glue Data Catalog peut être utilisé pour guider les opérations ETL.

Pour de plus amples informations sur la configuration des crawlers et des classifieurs, veuillez consulter Utilisation de robots pour alimenter le catalogue de données . Pour savoir comment programmer les classifieurs et les crawlers à l’aide de l’API AWS Glue, consultez API de classifieurs et d'crawlers.

AWS Glue Opérations d’ETL

À l’aide des métadonnées du catalogue de données, AWS Glue peut générer automatiquement les scripts Scala ou PySpark (API Python pour Apache Spark) avec des extensions AWS Glue, que vous pouvez utiliser et modifier pour exécuter les différentes opérations ETL. Par exemple, vous pouvez extraire, nettoyer et transformer les données brutes, puis stocker le résultat dans un référentiel différent, où il peut être interrogé et analysé. Un tel script peut convertir un fichier CSV sous une forme relationnelle et l’enregistrer dans Amazon Redshift.

Pour de plus amples informations sur l’utilisation des capacités ETL AWS Glue, veuillez consulter Programmation de scripts Spark.

ETL de streaming dans AWS Glue

AWS Glue vous permet d’effectuer des opérations ETL sur la diffusion de données de streaming à l’aide de tâches exécution continue. L’ETL de streaming AWS Glue est basé sur le moteur Apache Spark Structured Streaming et peut intégrer (les données) des flux à partir d’Amazon Kinesis Data Streams, d’Apache Kafka et d’Amazon Managed Streaming for Apache Kafka (Amazon MSK). ETL de streaming peut nettoyer et transformer les données de streaming et les charger dans des magasins de données Amazon S3 ou JDBC. Utilisez ETL de streaming dans AWS Glue pour traiter les données d’événements telles que les flux IoT, les parcours de navigation et les journaux de réseau.

Si vous connaissez le schéma de la source de données de streaming, vous pouvez le spécifier dans une table du catalogue de données. Sinon, vous pouvez activer la détection de schéma dans la tâche ETL de streaming. La tâche détermine ensuite automatiquement le schéma à partir des données entrantes.

La tâche ETL de streaming peut utiliser à la fois des transformations intégrées à AWS Glue et des transformations natives d’Apache Spark Structured Streaming. Pour plus d’informations, veuillez consulter Operations on streaming DataFrames/Datasets sur le site web Apache Spark.

Pour plus d’informations, consultez Tâches ETL en streaming dans AWS Glue.

Système de tâches AWS Glue

Le AWS Glue Jobs system fournit une infrastructure gérée pour orchestrer votre flux de travail ETL. Vous pouvez créer des tâches dans AWS Glue qui automatisent les scripts que vous utilisez pour extraire, transformer et transférer les données vers différents emplacements. Les tâches peuvent être programmées et chaînées, ou elles peuvent être déclenchées par des événements tels que l’arrivée de nouvelles données.

Pour plus d’informations sur l’utilisation du AWS Glue Jobs system, consultez Surveillance des AWS Glue. Pour plus d’informations sur la programmation à l’aide de l’API AWS Glue Jobs system, consultez API de tâches.

Composants ETL visuels

AWS Glue vous permet de créer des tâches ETL via un canevas visuel que vous pouvez manipuler.

La capture d’écran montre que le panneau des ressources est fermé.

Menu de tâches ETL

Les options du menu situées en haut du canevas vous permettent d’accéder aux différentes vues et aux détails de configuration de votre tâche.

  • Visuel : le canevas de l’éditeur de tâche visuel. C’est ici que vous pouvez ajouter des nœuds pour créer une tâche.

  • Script : représentation par script de votre tâche ETL. AWS Glue génère le script en fonction de la représentation visuelle de votre tâche. Vous pouvez également modifier votre script ou le télécharger.

    Note

    Si vous choisissez de modifier le script, l’expérience de création de tâches est définitivement convertie en mode script uniquement. Ensuite, vous ne pourrez plus utiliser l’éditeur visuel pour modifier la tâche. Vous devez ajouter toutes les sources de tâches, les transformations et les cibles, et apporter toutes les modifications nécessaires à l’aide de l’éditeur visuel avant de choisir de modifier le script.

  • Détails de la tâche : l’onglet Détails de la tâche vous permet de configurer votre tâche en définissant les propriétés de la tâche. Il existe des propriétés de base, telles que le nom et la description de votre tâche, le rôle IAM, le type de tâche, la version AWS Glue, la langue, le type de travailleur, le nombre de travailleurs, le signet de la tâche, l’exécution flexible, le nombre de suppressions et le délai d’expiration de la tâche, ainsi que des propriétés avancées, telles que les connexions, les bibliothèques, les paramètres de la tâche et les balises.

  • Exécutions : après l’exécution de votre tâche, vous pouvez accéder à cet onglet pour consulter vos précédentes exécutions de tâches.

  • Qualité des données : la qualité des données évalue et contrôle la qualité de vos ressources de données. Vous pouvez en savoir plus sur l’utilisation de la qualité des données dans cet onglet et ajouter une transformation de qualité des données à votre tâche.

  • Calendriers : les tâches que vous avez planifiées apparaissent dans cet onglet. Si aucun calendrier n’est associé à cette tâche, cet onglet n’est pas accessible.

  • Contrôle de version : vous pouvez utiliser Git avec votre tâche en la configurant dans un référentiel Git.

Panneaux ETL visuels

Lorsque vous travaillez dans le canevas, plusieurs panneaux sont disponibles pour vous aider à configurer vos nœuds ou à prévisualiser vos données et à visualiser le schéma de sortie.

  • Propriétés : le panneau Propriétés apparaît lorsque vous choisissez un nœud sur votre canevas.

  • Aperçu des données : le panneau Aperçu des données fournit un aperçu de la sortie des données afin que vous puissiez prendre des décisions avant d’exécuter votre tâche et d’examiner votre sortie.

  • Schéma de sortie : l’onglet Schéma de sortie vous permet de visualiser et de modifier le schéma de vos nœuds de transformation.

Redimensionnement des panneaux

Vous pouvez redimensionner le panneau Propriétés sur le côté droit de l’écran et le panneau inférieur qui contient les onglets Aperçu des données et Schéma de sortie en cliquant sur le bord du panneau et en le faisant glisser vers la gauche et la droite ou vers le haut et le bas.

  • Panneau Propriétés : redimensionnez le panneau Propriétés en cliquant et en faisant glisser le bord du canevas sur le côté droit de l’écran, puis en le faisant glisser vers la gauche pour augmenter sa largeur. Par défaut, le panneau est réduit et lorsqu’un nœud est sélectionné, le panneau Propriétés s’ouvre à sa taille par défaut.

  • Panneau Aperçu des données et Schéma de sortie : redimensionnez le panneau inférieur en cliquant et en faisant glisser le bord inférieur du canevas en bas de l’écran, puis en le faisant glisser vers le haut pour augmenter sa hauteur. Par défaut, le panneau est réduit et lorsqu’un nœud est sélectionné, le panneau inférieur s’ouvre à sa taille par défaut.

Canevas de tâche

Vous pouvez ajouter, supprimer et déplacer/réorganiser des nœuds directement sur le canevas ETL visuel. Considérez-le comme votre espace de travail pour créer une tâche ETL entièrement fonctionnelle qui commence par une source de données et peut se terminer par une cible de données.

Lorsque vous travaillez avec des nœuds sur le canevas, vous disposez d’une barre d’outils qui vous permet d’effectuer des zooms avant et arrière, de supprimer des nœuds, d’établir ou de modifier des connexions entre les nœuds, de modifier l’orientation du flux de travail et d’annuler ou de rétablir une action.

La capture d’écran montre que le panneau des ressources est fermé.

La barre d’outils flottante est ancrée dans le coin supérieur droit du canevas et contient plusieurs images qui effectuent des actions :

  • Icône de mise en page : la première icône de la barre d’outils est l’icône de mise en page. Par défaut, la direction des tâches visuelles est de haut en bas. Elle réorganise la direction de votre tâche visuelle en disposant les nœuds horizontalement de gauche à droite. Cliquez à nouveau sur l’icône de mise en page pour revenir de haut en bas.

  • Icône de recentrage : l’icône de recentrage modifie l’affichage du canevas en le centrant. Vous pouvez l’utiliser pour des tâches importantes pour revenir à la position centrale.

  • Icône de zoom avant : l’icône de zoom avant agrandit la taille des nœuds du canevas.

  • Icône de zoom arrière : l’icône de zoom avant réduit la taille des nœuds du canevas.

  • Icône corbeille : l’icône de corbeille supprime un nœud de la tâche visuelle. Vous devez d’abord sélectionner un nœud.

  • Icône d’annulation : l’icône d’annulation annule la dernière action effectuée sur la tâche visuelle.

  • Icône de rétablissement : l’icône de rétablissement répète la dernière action effectuée sur la tâche visuelle.

Utilisation de la mini-carte

La capture d’écran montre un gros plan de la mini-carte.

Panneau des ressources

Le panneau des ressources contient toutes les sources de données, les actions de transformation et les connexions disponibles. Ouvrez le panneau des ressources sur le canevas en cliquant sur l’icône « + ». Cela ouvre le panneau des ressources.

Pour fermer le panneau des ressources, cliquez sur la croix, X, dans le coin supérieur droit du panneau des ressources. Le panneau est ainsi masqué jusqu’à ce que vous souhaitiez l’ouvrir à nouveau.

La capture d’écran montre que le panneau des ressources est fermé.

En haut du panneau se trouve une collection de Transformations et de données populaires. Ces nœuds sont couramment utilisés dans AWS Glue. Choisissez-en un pour l’ajouter au canevas. Vous pouvez également masquer les Transformations et données populaires en cliquant sur le triangle situé à côté de l’en-tête Transformations et données populaires.

Dans la section Transformations et données populaires, vous pouvez rechercher des nœuds de transformations et de source de données. Les résultats apparaissent au fur et à mesure que vous saisissez du texte. Plus vous saisissez de caractères lors de votre requête de recherche, plus la liste des résultats diminuera. Les résultats de la recherche sont générés à partir du nom ou de la description du nœud. Choisissez un nœud pour l’ajouter à votre canevas.

Transformations et données

Deux onglets organisent les nœuds en Transformations et Données.

Transformations : lorsque vous choisissez l’onglet Transformations, toutes les transformations disponibles peuvent être sélectionnées. Choisissez une transformation pour l’ajouter au canevas. Vous pouvez également choisir Ajouter une transformation au bas de la liste des transformations, ce qui ouvrira une nouvelle page de documentation sur la création de Transformations visuelles personnalisées. En suivant les étapes, vous pourrez créer vos propres transformations. Vos transformations apparaîtront alors dans la liste des transformations disponibles.

Données : l’onglet de données contient tous les nœuds des Sources et des Cibles. Vous pouvez masquer les sources et les cibles en cliquant sur le triangle situé à côté de l’en-tête sources ou cibles. Vous pouvez afficher les sources et les cibles en cliquant à nouveau sur le triangle. Choisissez un nœud source ou cible pour l’ajouter au canevas. Vous pouvez également choisir Gérer les connexions pour ajouter une nouvelle connexion. Cela ouvrira la page Connecteurs dans la console.