AWS Glue: Funktionsweise - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Glue: Funktionsweise

AWS Glue verwendet andere AWS-Services, um Ihre ETL-Aufträge (Extrahieren, Transformieren und Laden) zu orchestrieren und Data Warehouses sowie Data Lakes aufzubauen und Ausgabestreams zu generieren. AWS Glue ruft API-Operationen auf, um Ihre Daten zu transformieren, Laufzeitprotokolle zu erstellen, Ihre Auftragslogik zu speichern und Benachrichtigungen zu erstellen, die Ihnen helfen, Ihre Auftragsausführungen zu überwachen. Die AWS Glue-Konsole verbindet diese Services zu einer verwalteten Anwendung, sodass Sie sich auf die Erstellung und Überwachung Ihrer ETL-Arbeit konzentrieren können. Die Konsole führt in Ihrem Namen Verwaltungs- und Auftragsentwicklungsoperationen durch. Sie stellen Anmeldeinformationen und andere Eigenschaften für AWS Glue bereit, um auf Ihre Datenquellen zugreifen und in Ihre Datenziele schreiben zu können.

AWS Glue kümmert sich um die Bereitstellung und Verwaltung der Ressourcen, die für die Ausführung Ihrer Workloads erforderlich sind. Sie brauchen die Infrastruktur für ein ETL-Tool nicht zu erstellen. Dies erledigt AWS Glue für Sie. Wenn Ressourcen benötigt werden, um die Startzeit zu verkürzen, verwendet AWS Glue eine Instance aus seinem Instance-Bereitschaftspool, um Ihren Workload auszuführen.

Mit AWS Glue erstellen Sie Aufträge mithilfe von Tabellendefinitionen in Ihrem Data Catalog. Aufträge bestehen aus Skripts, die die Anweisungen enthalten, mit denen die gewünschten Datentransformationsaufgaben ausgeführt werden. Sie verwenden Auslöser, um Aufträge entweder nach einem Zeitplan oder als Ergebnis eines bestimmten Ereignisses zu initiieren. Sie legen fest, wo sich Ihre Zieldaten befinden und welche Quelldaten Ihr Ziel befüllen. AWS Glue wandelt Ihre Daten anhand Ihrer Eingaben vom Quellformat in das Zielformat um. Alternativ können Sie auch benutzerdefinierte Skripts in der AWS Glue-Konsole oder -API bereitstellen, um Ihre Daten gemäß Ihren spezifischen Anforderungen zu verarbeiten.

Datenquellen und -ziele

AWS Glue für Spark ermöglicht das Lesen und Schreiben von Daten aus mehreren Systemen und Datenbanken, darunter:

  • Amazon S3

  • Amazon-DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service (Amazon RDS)

  • Über JDBC zugängliche Datenbanken von Drittanbietern

  • MongoDB und Amazon DocumentDB (mit MongoDB-Kompatibilität)

  • Andere Marketplace-Konnektoren und Apache-Spark-Plugins

Datenströme

AWS Glue für Spark kann Daten aus den folgenden Systemen streamen:

  • Amazon Kinesis Data Streams

  • Apache Kafka

AWS Glue ist in verschiedenen AWS-Regionen verfügbar. Weitere Informationen finden Sie unter AWS Regionen und Endpunkte in der Allgemeine Amazon Web Services-Referenz.

Isolierte, Serverless-ETL-Aufträge

AWS Glue führt Ihre ETL-Aufträge in einer Serverless-Umgebung mit einer Engine Ihrer Wahl aus, Spark oder Ray. AWS Glue führt diese Aufträge auf virtuellen Ressourcen aus, die es in seinem Service-Konto bereitstellt und verwaltet.

AWS Glue ist so konzipiert, dass es folgendes kann:

  • Separieren von Kundendaten.

  • Schützen von Kundendaten während der Übertragung und im Speicherzustand.

  • Zugriff nur dann auf Kundendaten, wenn dies aufgrund von Kundenanfragen erforderlich ist (über temporäre, auf einen bestimmten Umfang beschränkte Berechtigungsnachweise oder mit Zustimmung eines Kunden zu IAM-Rollen in seinem Konto).

Bei der Bereitstellung eines ETL-Auftrags stellen Sie Eingangsdatenquellen und Ausgangsdatenziele in Ihrer Virtual Private Cloud (VPC) zur Verfügung. Zusätzlich stellen Sie die IAM-Rolle, die VPC-ID, die Subnetz-ID und die Sicherheitsgruppe zur Verfügung, die für den Zugriff auf Datenquellen und -ziele benötigt werden. Für jedes Tupel (Kundenkonto-ID, IAM-Rolle, Subnetz-ID und Sicherheitsgruppe) erstellt AWS Glue eine neue Umgebung, die auf Netzwerk- und Verwaltungsebene von allen anderen Umgebungen innerhalb Ihres AWS Glue-Service-Kontos isoliert ist.

Sie erstellen und konfigurieren AWS Glue-Ressourcen wie Datenkataloge, Aufträge und Crawler in Ihrem AWS-Konto. Diese Ressourcen werden dann der IAM-Rolle und den Netzwerkeinstellungen (Subnetz und Sicherheitsgruppe) zugeordnet, die Sie während des Erstellungsprozesses angeben.

AWS Glue erstellt Elastic Network-Schnittstellen in Ihrem Subnetz unter Verwendung privater IP-Adressen. Aufträge nutzen diese Elastic-Network-Schnittstellen, um auf Ihre Datenquellen und Datenziele zuzugreifen. Der Datenverkehr in, aus und innerhalb der Umgebung der Auftragsausführung wird durch Ihre VPC- und Netzwerkrichtlinien geregelt, mit einer Ausnahme: Aufrufe von AWS Glue-Bibliotheken können den Datenverkehr zu AWS Glue-API-Operationen über die AWS Glue VPC leiten. Alle AWS Glue-API-Aufrufe werden protokolliert. So können Dateneigentümer den API-Zugriff überprüfen, indem sie AWS CloudTrail aktivieren, das Audit-Protokolle an Ihr Konto liefert.

Durch AWS Glue verwaltete Umgebungen, in denen Ihre ETL-Aufträge ausgeführt werden, werden mit den gleichen Sicherheitsverfahren geschützt, wie andere AWS-Services. Einen Überblick über die Vorgehensweisen und gemeinsamen Sicherheitsverantwortlichkeiten finden Sie im Whitepaper Introduction to AWS Security Processes.