Création de jobs ETL visuels - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de jobs ETL visuels

Créez des tâches ETL visuelles avec AWS Glue Studio

AWS Glue Studio fournit une interface visuelle pour créer, exécuter et surveiller des tâches Extract/Transform/Load (ETL) dans AWS Glue. Une tâche AWS Glue comprend la logique métier qui exécute les tâches d'extraction, de transformation et de chargement (ETL). Vous pouvez ainsi composer visuellement des flux de travail de transformation des données et les exécuter de manière fluide sur le moteur AWS Glue ETL sans serveur basé sur Apache Spark. AWS Glue Studio Vous pouvez créer des tâches qui déplacent et transforment des données entre différents magasins de données et flux à l'aide d'une drag-and-drop interface sans avoir à apprendre à utiliser Spark ou à écrire du code.

Une tâche AWS Glue encapsule un script qui se connecte à vos données source, les traite, puis les écrit dans votre cible de données. En général, une tâche exécute les scripts d'extraction, de transformation et de chargement (ETL). Les tâches peuvent exécuter des scripts conçus pour les environnements d'exécution Apache Spark et Ray. Les tâches peuvent également exécuter des scripts Python à usage général (tâches Python shell). AWS Glueles déclencheurs peuvent démarrer des tâches en fonction d'un calendrier, d'un événement ou à la demande. Vous pouvez surveiller les exécutions de tâche pour comprendre les métriques d'exécution telles que le statut d'achèvement, la durée et l'heure de début.

Vous pouvez utiliser des scripts générés par AWS Glue ou fournir les vôtres. Avec un schéma source et un emplacement ou un schéma cible, le générateur de AWS Glue Studio code peut créer automatiquement un script d'API Apache Spark (PySpark). Vous pouvez utiliser ce script comme point de départ et le modifier en fonction de vos objectifs.

AWS Glue peut écrire des fichiers de sortie dans plusieurs formats de données. Chaque type de tâche peut prendre en charge différents formats de sortie. Pour certains formats de données, des formats de compression courants peuvent être écrits.

Gestion des AWS Glue tâches dans la AWS console

Pour consulter les tâches existantes, connectez-vous à la AWS Glue console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/glue/. Ensuite, choisissez l'onglet Tâches dans AWS Glue. La liste Jobs (Tâches) affiche l'emplacement du script associé à chaque tâche, quand la tâche a été modifiée pour la dernière fois et l'option de signet de la tâche actuelle.

Vous pouvez créer des tâches dans la section ETL de la console AWS Glue. Lors de la création d'une tâche, ou après avoir l'avoir enregistrée, vous pouvez utiliser AWS Glue Studio pour modifier vos tâches ETL. Vous pouvez le faire en éditant les nœuds dans l'éditeur visuel ou en modifiant le script de la tâche en mode développeur. Vous pouvez également ajouter et supprimer des nœuds dans l'éditeur visuel pour créer des tâches ETL plus compliquées.

Prochaines étapes de création d'une tâche dans AWS Glue Studio Glue Studio

Vous utilisez l'éditeur de tâches visuelles pour configurer les nœuds de votre tâche. Chaque nœud représente une action, telle que la lecture de données à partir de l'emplacement source ou l'application d'une transformation aux données. Chaque nœud que vous ajoutez à votre tâche possède des propriétés qui fournissent des informations sur l'emplacement des données ou la transformation.

Voici les étapes suivantes pour créer et gérer vos tâches :

Créez des flux ETL visuels avec Amazon SageMaker

Avec un flux de travail Amazon SageMaker Unified Studio, vous pouvez configurer et exécuter une série de tâches dans Amazon SageMaker Unified Studio. Les flux de travail Amazon SageMaker Unified Studio utilisent Apache Airflow pour modéliser les procédures de traitement des données et orchestrer vos artefacts de code Amazon SageMaker Unified Studio. Pour plus d'informations, consultez Utilisation des flux de travail dans Amazon SageMaker Unified Studio.