Erstellen von Visual-ETL-Aufträgen
Erstellen von Visual-ETL-Aufträgen mit AWS Glue Studio
AWS Glue Studio bietet eine visuelle Oberfläche zum Erstellen, Ausführen und Überwachen von Extract/Transform/Load (ETL)-Aufträgen in AWS Glue. Ein Auftrag in AWS Glue besteht aus der Geschäftslogik, die Extraktions-, Transformations- und Ladearbeiten (ETL) ausführt. Mit AWS Glue Studio können Sie Workflows für die Datentransformation visuell erstellen und nahtlos auf der Apache-Spark-basierten Serverless-ETL-Engine von AWS Glue ausführen. Sie können mithilfe einer Drag-and-Drop-Oberfläche Aufträge erstellen, die Daten zwischen verschiedenen Datenspeichern und -strömen verschieben und transformieren, ohne sich mit Spark vertraut machen oder Code schreiben zu müssen.
Ein AWS Glue-Auftrag kapselt ein Skript ein, das eine Verbindung zu den Quelldaten herstellt, verarbeitet es und schreibt es dann in Ihr Datenziel. In der Regel führt ein Auftrag Extraktions-, Transformations- und Ladeskripts (Extract, Transform and Load, ETL) aus. Aufträge können Skripte ausführen, die für Apache Spark und Ray-Laufzeitumgebungen entwickelt wurden. Aufträge können auch allgemeine Python-Skripts (Python-Shell-Aufträge) ausführen. AWS Glue-Auslöser können Aufträge basierend auf einem Zeitplan oder Ereignis oder On-Demand starten. Sie können Auftragsausführungen überwachen, um mehr über Laufzeitmetriken wie Bearbeitungsstatus, Dauer und Startzeit zu erfahren.
Sie können von AWS Glue generierte Skripts verwenden oder eigene Skripts bereitstellen. Wenn ein Quellschema und ein Zielspeicherort oder -schema vorhanden sind, kann der AWS Glue Studio-Codegenerator automatisch ein Apache-Spark-API-Skript (PySpark) erstellen. Sie können dieses Skript als Ausgangspunkt verwenden und es bearbeiten, um Ihre Ziele zu erreichen.
AWS Glue kann Ausgabedateien in mehreren Datenformaten schreiben. Jeder Auftragstyp unterstützt möglicherweise unterschiedliche Ausgabeformate. Für einige Datenformate können gängige Komprimierungsformate geschrieben werden.
Verwalten von AWS Glue-Aufträgen in der AWS-Konsole
Um Ihre vorhandenen Aufträge anzuzeigen, melden Sie sich bei AWS Management Console an und öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/
Sie können Aufträge im Abschnitt ETL der AWS Glue-Konsole erstellen. Beim Erstellen eines neuen Auftrags bzw. nachdem Sie Ihren Auftrag gespeichert haben, können Sie mit AWS Glue Studio Ihre ETL-Aufträge ändern. Dazu bearbeiten Sie die Knoten im visuellen Editor bzw. das Auftragsskript im Entwicklermodus. Sie können auch Knoten im visuellen Editor hinzufügen und entfernen und komplexere ETL-Aufträge erstellen.
Nächste Schritte zum Erstellen eines Auftrags in AWS Glue Studio
Sie verwenden den visuellen Auftragseditor, um Knoten für Ihren Auftrag zu konfigurieren. Jeder Knoten stellt eine Aktion dar, z. B. das Lesen von Daten vom Quellspeicherort oder das Anwenden einer Transformation auf die Daten. Jeder Knoten, den Sie Ihrem Auftrag hinzufügen, verfügt über Eigenschaften, die Informationen zum Datenspeicherort oder zur Transformation bereitstellen.
Die nächsten Schritte zum Erstellen und Verwalten Ihrer Jobs sind:
Erstellen von Visual-ETL-Flows mit Amazon SageMaker
Mit einem Workflow von Amazon SageMaker Unified Studio können Sie eine Reihe von Aufgaben in Amazon SageMaker Unified Studio einrichten und ausführen. Workflows von Amazon SageMaker Unified Studio verwenden Apache Airflow, um Datenverarbeitungsprozesse zu modellieren und Ihre Code-Artefakte von Amazon SageMaker Unified Studio zu orchestrieren. Weitere Informationen finden Sie unter Verwenden von Workflows in Amazon SageMaker Unified Studio.