Was ist AWS Glue? - AWS Glue

Was ist AWS Glue?

AWS Glue ist ein Serverless-Datenintegrationsdienst, der es Analytics-Benutzern erleichtert, Daten aus mehreren Quellen zu erkennen, vorzubereiten, zu verschieben und zu integrieren. Sie können es für Analysen, Machine Learning und Anwendungsentwicklung verwenden. Es umfasst auch zusätzliche Produktivitäts- und Datenops-Tools für die Erstellung, Ausführung von Aufträgen und die Implementierung von Geschäftsabläufen.

Mit AWS Glue können Sie mehr als 70 verschiedene Datenquellen entdecken und sich mit ihnen verbinden sowie Ihre Daten in einem zentralen Datenkatalog verwalten. Sie können ETL-Pipelines (Extract, Transform, Load) visuell erstellen, ausführen und überwachen, um Daten in Ihre Date Lakes zu laden. Außerdem können Sie mithilfe von Amazon Athena, Amazon EMR und Amazon Redshift Spectrum sofort katalogisierte Daten durchsuchen und abfragen.

AWS Glue konsolidiert wichtige Datenintegrationsfunktionen in einem einzigen Service. Dazu gehören Data Discovery, moderne ETL, Bereinigung, Transformation und zentralisierte Katalogisierung. Es ist außerdem Serverless, was bedeutet, dass keine Infrastruktur verwaltet werden muss. Mit flexibler Unterstützung für alle Workloads wie ETL, ELT und Streaming in einem Service, unterstützt AWS GlueBenutzer über verschiedene Workloads und Benutzertypen hinweg.

Außerdem macht AWS Glue es einfach, Daten in Ihrer gesamten Architektur zu integrieren. Es ist in AWS-Analyseservices und Amazon S3-Data Lakes integriert. AWS Glue verfügt über Integrationsschnittstellen und Job-Authoring-Tools, die für alle Benutzer, vom Entwickler bis zum Geschäftsanwender, einfach zu bedienen sind und maßgeschneiderte Lösungen für unterschiedliche technische Fähigkeiten bieten.

Mit der Fähigkeit, bei Bedarf zu skalieren, hilft AWS Glue Ihnen, sich auf hochwertige Aktivitäten zu konzentrieren, die den Wert Ihrer Daten maximieren. Es skaliert für jede Datengröße und unterstützt alle Datentypen und Schemavarianzen. Um die Agilität zu erhöhen und Kosten zu optimieren, bietet AWS Glue eine integrierte Hochverfügbarkeit und Pay-as-you-go-Abrechnung.

Preisinformationen finden Sie unter AWS Glue Preise.

AWS Glue Studio

AWS Glue Studio ist eine grafische Oberfläche, mit der Sie Datenintegrationsaufträge in AWS Glue ganz einfach erstellen, ausführen und überwachen können. Sie können Workflows für die Datentransformation visuell erstellen und nahtlos auf der Apache-Spark-basierten Serverless-ETL-Engine in AWS Glue laufen lassen.

Mit AWS Glue Studio können Sie Aufträge erstellen und verwalten, die Daten sammeln, transformieren und bereinigen. Sie können auch mit AWS Glue Studio Probleme beheben und Auftragsskripts bearbeiten.

AWS Glue-Features

AWS Glue-Features lassen sich in drei Hauptkategorien einteilen:

  • Entdecken und organisieren von Daten

  • Transformieren, vorbereiten und bereinigen von Daten für die Analyse

  • Erstellen und Überwachen von Datenpipelines

Entdecken und organisieren von Daten

  • Vereinheitlichung und Suche über mehrere Datenspeicher hinweg – Speichern, Indizieren und Suchen über mehrere Datenquellen und Senken hinweg, indem Sie alle Ihre Daten in AWS katalogisieren.

  • Automatische Erkennung von Daten – Verwendung von AWS Glue-Crawlern, um automatisch Schemainformationen abzuleiten und sie in Ihr AWS Glue Data Catalog zu integrieren.

  • Schemas und Berechtigungen verwalten – Validieren und kontrollieren Sie den Zugriff auf Ihre Datenbanken und Tabellen.

  • Verbinden Sie sich mit einer Vielzahl von Datenquellen – Nutzen Sie mehrere Datenquellen, sowohl On-Premises als auch AWS mit AWS Glue-Verbindungen zum Aufbau Ihres Data Lake.

Transformieren, vorbereiten und bereinigen von Daten für Analysen

  • Visuelle Transformation von Daten mit der Canvas-Schnittstelle eines Auftrags – Definieren Sie Ihren ETL-Prozess im visuellen Auftrags-Editor und generieren Sie automatisch den Code zum Extrahieren, Transformieren und Laden Ihrer Daten.

  • Erstellen Sie komplexe ETL-Pipelines mit einfacher Jobplanung – Rufen Sie AWS Glue-Jobs nach einem Zeitplan, auf Anfrage oder basierend auf einem Ereignis auf.

  • Reinigen und transformieren Sie Streaming-Daten während der Übertragung – Ermöglichen Sie kontinuierlichen Datenverbrauch und bereinigen und transformieren Sie ihn während der Übertragung. Dadurch steht es in Sekundenschnelle für Analysen in Ihrem Zieldatenspeicher zur Verfügung.

  • Daten deduplizieren und bereinigen mit integriertem Machine Learning – Bereinigen und bereiten Sie Ihre Daten mit dem FindMatches-Feature für die Analyse vor, ohne Experte für Machine Learning zu werden. Dieses Feature dedupliziert und findet Datensätze, die nicht perfekt zueinander passen.

  • Integrierten Jobnotizbücher – AWS Glue-Job-Notebooks bieten Serverless-Notebooks mit minimalem Setup in AWS Glue, damit Sie schnell loslegen können.

  • ETL-Code bearbeiten, debuggen und testen – Mit AWS Glue-interaktiven Sitzungen können Sie interaktiv Daten erkunden und aufbereiten. Mit der IDE oder dem Notebook Ihrer Wahl können Sie Daten interaktiv erkunden, ausprobieren und verarbeiten.

  • Definieren, erkennen und korrigieren sensibler Daten – Mit der Erkennung sensibler AWS Glue-Daten können Sie sensible Daten in Ihrer Datenpipeline und in Ihrem Data Lake definieren, identifizieren und verarbeiten.

Erstellen und Überwachen von Datenpipelines

  • Automatische Skalierung basierend auf Workload – Skalieren Sie Ressourcen basierend auf der Arbeitslast dynamisch nach oben und unten. Dadurch werden Arbeitern nur bei Bedarf Jobs zugewiesen.

  • Automatisieren von Aufträgen mit ereignisbasierten Auslösern – Starten Sie Crawler oder AWS Glue-Jobs mit ereignisbasierten Auslösern, und entwerfen Sie eine Kette untergeordneter Jobs und Crawler.

  • Ausführen und Überwachen von Aufträgen – Führen Sie AWS Glue-Aufträge mit einer Engine Ihrer Wahl aus, Spark oder Ray. Überwachen Sie sie mit automatisierten Überwachungstools, Einblicken in die AWS Glue-Auftragsausführung und AWS CloudTrail. Verbessern Sie Ihre Überwachung von Spark-gestützten Aufträgen mit der Apache-Spark-Benutzeroberfläche.

  • Definieren Sie Workflows für ETL- und Integrationsaktivitäten – Definieren Sie Workflows für ETL und Integrationsaktivitäten für mehrere Crawler, Jobs und Auslöser.

Erfahren Sie mehr über Innovationen in AWS Glue

Erfahren Sie mehr über die neuesten Innovationen in AWS Glue und erfahren Sie, wie Kunden AWS Glue nutzen, um die Self-Service-Datenvorbereitung in ihrem gesamten Unternehmen zu ermöglichen.

Erfahren Sie, wie Kunden AWS Glue über das herkömmliche Setup hinaus skalieren und wie sie AWS Glue für die Auftragsüberwachung und -leistung konfigurieren.

Erste Schritte mit AWS Glue

Wir empfehlen Ihnen, dass Sie mit den folgenden Abschnitten beginnen:

Zugriff auf AWS Glue

Mit den folgenden Schnittstellen können Sie Ihre AWS Glue-Jobs erstellen, einsehen und verwalten:

  • AWS Glue-Konsole – Bietet Ihnen eine Webschnittstelle zum Erstellen, Anzeigen und Verwalten Ihrer AWS Glue-Jobs. Für den Zugriff auf die Konsole vgl. AWS Glue.

  • AWS Glue Studio— Bietet eine grafische Oberfläche, über die Sie Ihre AWS Glue-Jobs visuell erstellen und bearbeiten können. Weitere Informationen finden Sie unter Erstellen von Visual-ETL-Aufträgen.

  • AWS Glue-Abschnitt der AWS CLI-Referenz – Bietet AWS CLI-Befehle, mit denen Sie AWS Glue verwenden können. Weitere Informationen finden Sie in der AWS CLI-Referenz für AWS Glue.

  • AWS Glue-API – Stellt eine vollständige API-Referenz für Entwickler bereit. Weitere Informationen finden Sie unter AWS Glue-API.

Benutzer von AWS Glue verwenden auch:

  • AWS Lake Formation – Ein Service, der eine Autorisierungsebene ist, die eine differenzierte Zugriffskontrolle auf Ressourcen in AWS Glue Data Catalog bietet.

  • AWS Glue DataBrew – Ein Tool zur visuellen Datenvorbereitung, mit dem Sie Daten bereinigen und normalisieren können, ohne Code zu schreiben.