Création de tâches ETL visuelles - AWS Glue

Création de tâches ETL visuelles

Création de tâches ETL visuelles avec AWS Glue Studio

AWS Glue Studio fournit une interface visuelle pour créer, exécuter et surveiller les tâches ETL (extraction, transformation et chargement) dans AWS Glue. Une tâche dans AWS Glue se compose de la logique métier qui effectue le travail ETL (extraction, transformation et chargement). Avec AWS Glue Studio, vous pouvez composer visuellement des flux de transformation de données et les exécuter de manière transparente sur le moteur ETL sans serveur basé sur Apache Spark d’AWS Glue. Vous pouvez créer des tâches qui déplacent et transforment des données entre différents entrepôts de données et flux à l’aide d’une interface glisser-déposer sans avoir à apprendre à utiliser Spark ni à écrire du code.

Une tâche AWS Glue encapsule un script qui se connecte à vos données source, les traite, puis les écrit dans votre cible de données. En général, une tâche exécute les scripts d'extraction, de transformation et de chargement (ETL). Les tâches peuvent exécuter des scripts conçus pour les environnements d’exécution Apache Spark et Ray. Les tâches peuvent également exécuter des scripts Python à usage général (tâches shell Python). Les déclencheurs AWS Glue peuvent démarrer des tâches en fonction d’une planification, d’un événement ou à la demande. Vous pouvez surveiller les exécutions de tâche pour comprendre les métriques d’exécution telles que le statut d’achèvement, la durée et l’heure de début.

Vous pouvez utiliser des scripts générés par AWS Glue ou fournir les vôtres. Avec un schéma source et un emplacement ou un schéma cible, le générateur de code AWS Glue Studio peut créer automatiquement un script Apache Spark API (PySpark). Vous pouvez utiliser ce script comme point de départ et le modifier en fonction de vos objectifs.

AWS Glue peut écrire des fichiers de sortie dans plusieurs formats de données. Chaque type de tâche peut prendre en charge différents formats de sortie. Pour certains formats de données, des formats de compression courants peuvent être écrits.

Gestion de tâches AWS Glue dans la console AWS

Pour afficher les tâches existantes, connectez-vous à la AWS Management Console et ouvrez console AWS Glue à l'adresse https://console.aws.amazon.com/glue/. Ensuite, choisissez l'onglet Tâches dans AWS Glue. La liste Jobs (Tâches) affiche l'emplacement du script associé à chaque tâche, quand la tâche a été modifiée pour la dernière fois et l'option de signet de la tâche actuelle.

Vous pouvez créer des tâches dans la section ETL de la console AWS Glue. Lors de la création d'une tâche, ou après avoir l'avoir enregistrée, vous pouvez utiliser AWS Glue Studio pour modifier vos tâches ETL. Vous pouvez le faire en éditant les nœuds dans l’éditeur visuel ou en modifiant le script de la tâche en mode développeur. Vous pouvez également ajouter et supprimer des nœuds dans l'éditeur visuel pour créer des tâches ETL plus compliquées.

Prochaines étapes de création d’une tâche dans AWS Glue Studio

Vous utilisez l’éditeur de tâches visuelles pour configurer les nœuds de votre tâche. Chaque nœud représente une action, telle que la lecture de données à partir de l’emplacement source ou l’application d’une transformation aux données. Chaque nœud que vous ajoutez à votre tâche possède des propriétés qui fournissent des informations sur l’emplacement des données ou la transformation.

Voici les étapes suivantes pour créer et gérer vos tâches :

Création de flux ETL visuels avec Amazon SageMaker

Avec un flux de travail Amazon SageMaker Unified Studio, vous pouvez configurer et exécuter une série de tâches dans Amazon SageMaker Unified Studio. Les flux de travail Amazon SageMaker Unified Studio utilisent Apache Airflow pour modéliser les procédures de traitement des données et orchestrer vos artefacts de code Amazon SageMaker Unified Studio. Pour plus d’informations, consultez Using workflows in Amazon SageMaker Unified Studio.