AWS Glue: Funktionsweise

AWS Glue verwendet andere AWS Dienste, um Ihre ETL-Jobs (Extrahieren, Transformieren und Laden) zu orchestrieren, um Data Warehouses und Data Lakes aufzubauen und Output-Streams zu generieren. AWS Glueruft API-Operationen auf, um Ihre Daten zu transformieren, Laufzeitprotokolle zu erstellen, Ihre Joblogik zu speichern und Benachrichtigungen zu erstellen, mit denen Sie Ihre Jobausführungen überwachen können. Die AWS Glue-Konsole verbindet diese Services zu einer verwalteten Anwendung, sodass Sie sich auf die Erstellung und Überwachung Ihrer ETL-Arbeit konzentrieren können. Die Konsole führt in Ihrem Namen Verwaltungs- und Auftragsentwicklungsoperationen durch. Sie stellen Anmeldeinformationen und andere Eigenschaften für AWS Glue bereit, um auf Ihre Datenquellen zugreifen und in Ihre Datenziele schreiben zu können.

AWS Glue kümmert sich um die Bereitstellung und Verwaltung der Ressourcen, die für die Ausführung Ihrer Workloads erforderlich sind. Sie brauchen die Infrastruktur für ein ETL-Tool nicht zu erstellen. Dies erledigt AWS Glue für Sie. Wenn Ressourcen benötigt werden, um die Startzeit zu verkürzen, verwendet AWS Glue eine Instance aus seinem Instance-Bereitschaftspool, um Ihren Workload auszuführen.

Mit AWS Glue erstellen Sie Aufträge mithilfe von Tabellendefinitionen in Ihrem Data Catalog. Aufträge bestehen aus Skripts, die die Anweisungen enthalten, mit denen die gewünschten Datentransformationsaufgaben ausgeführt werden. Sie verwenden Auslöser, um Aufträge entweder nach einem Zeitplan oder als Ergebnis eines bestimmten Ereignisses zu initiieren. Sie legen fest, wo sich Ihre Zieldaten befinden und welche Quelldaten Ihr Ziel befüllen. AWS Glue wandelt Ihre Daten anhand Ihrer Eingaben vom Quellformat in das Zielformat um. Alternativ können Sie auch benutzerdefinierte Skripts in der AWS Glue-Konsole oder -API bereitstellen, um Ihre Daten gemäß Ihren spezifischen Anforderungen zu verarbeiten.

Datenquellen und -ziele

AWS Glue für Spark ermöglicht das Lesen und Schreiben von Daten aus mehreren Systemen und Datenbanken, darunter:

Amazon S3
Amazon DynamoDB
Amazon Redshift
Amazon Relational Database Service (Amazon RDS)
Über JDBC zugängliche Datenbanken von Drittanbietern
MongoDB und Amazon DocumentDB (mit MongoDB-Kompatibilität)
Andere Marketplace-Konnektoren und Apache-Spark-Plugins

Datenströme

AWS Glue für Spark kann Daten aus den folgenden Systemen streamen:

Amazon Kinesis Data Streams
Apache Kafka

AWS Glue ist in mehreren AWS Regionen verfügbar. Weitere Informationen finden Sie unter AWS Regionen und Endpunkte in der Allgemeine Amazon Web Services-Referenz.

Themen

Isolierte, Serverless-ETL-Aufträge

AWS Glue führt Ihre ETL-Aufträge in einer Serverless-Umgebung mit einer Engine Ihrer Wahl aus, Spark oder Ray. AWS Glue führt diese Aufträge auf virtuellen Ressourcen aus, die es in seinem Service-Konto bereitstellt und verwaltet.

AWS Glue ist so konzipiert, dass es folgendes kann:

Separieren von Kundendaten.
Schützen von Kundendaten während der Übertragung und im Speicherzustand.
Zugriff nur dann auf Kundendaten, wenn dies aufgrund von Kundenanfragen erforderlich ist (über temporäre, auf einen bestimmten Umfang beschränkte Berechtigungsnachweise oder mit Zustimmung eines Kunden zu IAM-Rollen in seinem Konto).

Bei der Bereitstellung eines ETL-Auftrags stellen Sie Eingangsdatenquellen und Ausgangsdatenziele in Ihrer Virtual Private Cloud (VPC) zur Verfügung. Zusätzlich stellen Sie die IAM-Rolle, die VPC-ID, die Subnetz-ID und die Sicherheitsgruppe zur Verfügung, die für den Zugriff auf Datenquellen und -ziele benötigt werden. Für jedes Tupel (Kundenkonto-ID, IAM-Rolle, Subnetz-ID und Sicherheitsgruppe) erstellt AWS Glue eine neue Umgebung, die auf Netzwerk- und Verwaltungsebene von allen anderen Umgebungen innerhalb Ihres AWS Glue-Service-Kontos isoliert ist.

Sie erstellen und konfigurieren AWS Glue Ressourcen wie Datenkataloge, Jobs und Crawler in Ihrem AWS Konto. Diese Ressourcen werden dann der IAM-Rolle und den Netzwerkeinstellungen (Subnetz und Sicherheitsgruppe) zugeordnet, die Sie während des Erstellungsprozesses angeben.

AWS Glue erstellt Elastic Network-Schnittstellen in Ihrem Subnetz unter Verwendung privater IP-Adressen. Aufträge nutzen diese Elastic-Network-Schnittstellen, um auf Ihre Datenquellen und Datenziele zuzugreifen. Der Datenverkehr in, aus und innerhalb der Umgebung der Auftragsausführung wird durch Ihre VPC- und Netzwerkrichtlinien geregelt, mit einer Ausnahme: Aufrufe von AWS Glue-Bibliotheken können den Datenverkehr zu AWS Glue-API-Operationen über die AWS Glue VPC leiten. Alle AWS Glue-API-Aufrufe werden protokolliert. So können Dateneigentümer den API-Zugriff überprüfen, indem sie AWS CloudTrail aktivieren, das Audit-Protokolle an Ihr Konto liefert.

AWS Glueverwaltete Umgebungen, in denen Ihre ETL-Jobs ausgeführt werden, sind mit denselben Sicherheitspraktiken geschützt, denen auch andere AWS Dienste folgen. Einen Überblick über die Verfahren und die gemeinsamen Sicherheitsaufgaben finden Sie im Whitepaper Einführung in AWS Sicherheitsprozesse.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AWS Glue Ende des Supports für Ray

Konzepte