Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellung visueller ETL-Jobs
Erstellen Sie visuelle ETL-Jobs mit AWS Glue Studio
AWS Glue Studio bietet eine visuelle Oberfläche zum Erstellen, Ausführen und Überwachen von Extract/Transform/Load (ETL-) Jobs in AWS Glue. Ein Job in AWS Glue besteht aus der Geschäftslogik, die Aufgaben zum Extrahieren, Transformieren und Laden (ETL) ausführt. Mit AWS Glue Studio können Sie Workflows zur Datentransformation visuell zusammenstellen und sie nahtlos auf AWS Glue der Apache Spark-basierten serverlosen ETL-Engine ausführen. Sie können Jobs erstellen, die Daten mithilfe einer drag-and-drop Schnittstelle zwischen verschiedenen Datenspeichern und Streams verschieben und transformieren, ohne Spark lernen oder Code schreiben zu müssen.
Ein AWS Glue-Auftrag kapselt ein Skript ein, das eine Verbindung zu den Quelldaten herstellt, verarbeitet es und schreibt es dann in Ihr Datenziel. In der Regel führt ein Auftrag Extraktions-, Transformations- und Ladeskripts (Extract, Transform and Load, ETL) aus. Aufträge können Skripte ausführen, die für Apache Spark und Ray-Laufzeitumgebungen entwickelt wurden. Jobs können auch allgemeine Python-Skripte (Python-Shell-Jobs) ausführen. AWS GlueTrigger können Jobs auf der Grundlage eines Zeitplans oder Ereignisses oder bei Bedarf starten. Sie können Auftragsausführungen überwachen, um mehr über Laufzeitmetriken wie Bearbeitungsstatus, Dauer und Startzeit zu erfahren.
Sie können von AWS Glue generierte Skripts verwenden oder eigene Skripts bereitstellen. Mit einem Quellschema und einer Zielposition oder einem Schema kann der AWS Glue Studio Codegenerator automatisch ein Apache Spark-API-Skript (PySpark) erstellen. Sie können dieses Skript als Ausgangspunkt verwenden und es bearbeiten, um Ihre Ziele zu erreichen.
AWS Glue kann Ausgabedateien in mehreren Datenformaten schreiben. Jeder Auftragstyp unterstützt möglicherweise unterschiedliche Ausgabeformate. Für einige Datenformate können gängige Komprimierungsformate geschrieben werden.
AWS Glue Jobs in der AWS Konsole verwalten
Um bestehende Jobs anzusehen, melden Sie sich bei der an AWS Management Console und öffnen Sie die AWS Glue Konsole unter https://console.aws.amazon.com/glue/
Sie können Aufträge im Abschnitt ETL der AWS Glue-Konsole erstellen. Beim Erstellen eines neuen Auftrags bzw. nachdem Sie Ihren Auftrag gespeichert haben, können Sie mit AWS Glue Studio Ihre ETL-Aufträge ändern. Dazu bearbeiten Sie die Knoten im visuellen Editor bzw. das Auftragsskript im Entwicklermodus. Sie können auch Knoten im visuellen Editor hinzufügen und entfernen und komplexere ETL-Aufträge erstellen.
Nächste Schritte zum Erstellen eines Auftrags in AWS Glue Studio
Sie verwenden den visuellen Auftragseditor, um Knoten für Ihren Auftrag zu konfigurieren. Jeder Knoten stellt eine Aktion dar, z. B. das Lesen von Daten vom Quellspeicherort oder das Anwenden einer Transformation auf die Daten. Jeder Knoten, den Sie Ihrem Auftrag hinzufügen, verfügt über Eigenschaften, die Informationen zum Datenspeicherort oder zur Transformation bereitstellen.
Die nächsten Schritte zum Erstellen und Verwalten Ihrer Jobs sind:
Erstellen Sie visuelle ETL-Flows mit Amazon SageMaker
Mit einem Amazon SageMaker Unified Studio-Workflow können Sie eine Reihe von Aufgaben in Amazon SageMaker Unified Studio einrichten und ausführen. Amazon SageMaker Unified Studio-Workflows verwenden Apache Airflow, um Datenverarbeitungsverfahren zu modellieren und Ihre Amazon SageMaker Unified Studio-Codeartefakte zu orchestrieren. Weitere Informationen finden Sie unter Workflows in Amazon SageMaker Unified Studio verwenden.