Neue Features Aktionen AWS Glue zur Migration auf 5.0 Checkliste für die Migration AWS Glue 5.0-Funktionen Migration von AWS Glue 4.0 auf 5.0 AWS Glue Migration von AWS Glue 3.0 auf 5.0 AWS Glue Migration von AWS Glue 2.0 auf 5.0 AWS Glue Verhaltensänderungen in 5.0 protokollieren AWS Glue Migration von Konnektoren und JDBC-Treibern für 5.0 AWS Glue

Migration AWS Glue für Spark-Jobs auf AWS Glue Version 5.0

In diesem Thema werden die Änderungen zwischen den AWS Glue Versionen 0.9, 1.0, 2.0, 3.0 und 4.0 beschrieben, die es Ihnen ermöglichen, Ihre Spark-Anwendungen und ETL-Jobs auf AWS Glue 5.0 zu migrieren. Außerdem werden die Funktionen in AWS Glue 5.0 und die Vorteile seiner Verwendung beschrieben.

Um diese Funktion mit Ihren AWS Glue ETL-Jobs zu verwenden, wählen Sie 5.0 Glue version bei der Erstellung Ihrer Jobs die Option.

Themen

Neue Features
Aktionen AWS Glue zur Migration auf 5.0
Checkliste für die Migration
AWS Glue 5.0-Funktionen
Migration von AWS Glue 4.0 auf 5.0 AWS Glue
Migration von AWS Glue 3.0 auf 5.0 AWS Glue
Migration von AWS Glue 2.0 auf 5.0 AWS Glue
Verhaltensänderungen in 5.0 protokollieren AWS Glue
Migration von Konnektoren und JDBC-Treibern für 5.0 AWS Glue

Neue Features

In diesem Abschnitt werden die neuen Funktionen und Vorteile von AWS Glue Version 5.0 beschrieben.

Apache Spark-Update von 3.3.0 in AWS Glue 4.0 auf 3.5.4 in AWS Glue 5.0. Siehe Wesentliche Verbesserungen von Spark 3.3.0 auf Spark 3.5.4.
Spark-native Fine-Grained Access Control (FGAC) mit Lake Formation. Dazu gehört FGAC für Iceberg-, Delta- und Hudi-Tabellen. Weitere Informationen finden Sie unter Verwenden von AWS Glue with AWS Lake Formation für eine detaillierte Zugriffskontrolle.

Beachten Sie die folgenden Überlegungen oder Einschränkungen für Spark-native FGAC:
- Derzeit werden Datenschreibvorgänge nicht unterstützt
- Um GlueContext mithilfe von Lake Formation in Iceberg zu schreiben, muss stattdessen die IAM-Zugriffskontrolle verwendet werden
Eine vollständige Liste der Einschränkungen und Überlegungen bei der Verwendung von Spark-nativem FGAC finden Sie unter. Überlegungen und Einschränkungen
Support für Amazon S3 Access Grants als skalierbare Zugriffskontrolllösung für Ihre Amazon S3 S3-Daten von AWS Glue. Weitere Informationen finden Sie unter Verwenden von Amazon S3 Access Grants mit AWS Glue.
Open Table Formats (OTF) wurde auf Hudi 0.15.0, Iceberg 1.7.1 und Delta Lake 3.3.0 aktualisiert
Unterstützung für Amazon SageMaker Unified Studio.
Amazon SageMaker Lakehouse und Integration der Datenabstraktion. Weitere Informationen finden Sie unter Abfragen von Metastore-Datenkatalogen über ETL AWS Glue.
Support für die Installation zusätzlicher Python-Bibliotheken mitrequirements.txt. Weitere Informationen finden Sie unter Installation zusätzlicher Python-Bibliotheken in AWS Glue 5.0 oder höher mit requirements.txt.
AWS Glue 5.0 unterstützt Data Lineage in Amazon DataZone. Sie können so konfigurieren AWS Glue , dass während der Ausführung von Spark-Jobs automatisch Herkunftsinformationen gesammelt und die Herkunftsereignisse zur Visualisierung in Amazon gesendet werden. DataZone Weitere Informationen finden Sie unter Data Lineage in Amazon DataZone.

Um dies in der AWS Glue Konsole zu konfigurieren, aktivieren Sie Generate Lineage Events und geben Sie Ihre DataZone Amazon-Domain-ID auf der Registerkarte Jobdetails ein.

Alternativ können Sie den folgenden Job-Parameter angeben (geben Sie Ihre DataZone Domain-ID an):
- Schlüssel: --conf
- Wert:
```
extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener
—conf spark.openlineage.transport.type=amazon_datazone_api
-conf spark.openlineage.transport.domainId=<your-domain-ID>
```
Konnektor- und JDBC-Treiber-Updates. Weitere Informationen erhalten Sie unter Anhang B: Aktualisierungen von JDBC-Treibern und Anhang C: Konnektor-Upgrades.
Java-Update von 8 auf 17.
Erhöhung des Speicherplatzes für G.2X Mitarbeiter AWS Glue G.1X und Erhöhung des Festplattenspeichers auf 94 GB bzw. 138 GB. Darüber hinaus sind neue Worker-Typen und speicheroptimierte G.12XG.16X,R.1X, R.2XR.4X, in AWS Glue Version 4.0 und R.8X späteren Versionen verfügbar. Weitere Informationen finden Sie unter Aufträge.
Jobs, die AWS SDK for Java, Version AWS Glue 2-5.0 Support, können die Java-Versionen 1.12.569 oder 2.28.8 verwenden, wenn der Job v2 unterstützt. Das AWS SDK for Java 2.x ist eine umfassende Neufassung der Codebasis von Version 1.x. Sie basiert auf Java 8+ und fügt mehrere häufig angeforderte Funktionen hinzu. Dies umfasst die Unterstützung von blockierungsfreiem E/A und die Möglichkeit, zur Laufzeit eine andere HTTP-Implementierung einzubinden. Weitere Informationen, einschließlich eines Migrationshandbuchs von SDK for Java v1 zu v2, finden Sie im Handbuch AWS SDK for Java, Version 2.

Abwärtskompatible Änderungen

Beachten Sie die folgenden grundlegenden Änderungen:

Wenn in AWS Glue 5.0 das S3A-Dateisystem verwendet wird und sowohl `fs.s3a.endpoint` als auch `fs.s3a.endpoint.region` nicht gesetzt sind, ist die von S3A verwendete Standardregion `us-east-2`. Dies kann zu Problemen führen, z. B. zu Timeout-Fehlern beim S3-Upload, insbesondere bei VPC-Jobs. Um die durch diese Änderung verursachten Probleme zu beheben, legen Sie die Spark-Konfiguration `fs.s3a.endpoint.region` fest, wenn Sie das S3A-Dateisystem in 5.0 verwenden. AWS Glue
Feinkörnige Zugangskontrolle (FGAC) von Lake Formation
- AWS Glue 5.0 unterstützt nur das neue Spark-native FGAC, das Spark verwendet. DataFrames Die Verwendung von FGAC wird nicht unterstützt. AWS Glue DynamicFrames
  - Die Verwendung von FGAC in 5.0 erfordert eine Migration von zu Spark AWS Glue DynamicFrames DataFrames
  - Wenn Sie FGAC nicht benötigen, ist es nicht notwendig, zu Spark zu migrieren, DataFrame und GlueContext Funktionen wie Job-Lesezeichen und Push-Down-Prädikate funktionieren weiterhin.
- Jobs mit Spark-nativem FGAC erfordern mindestens 4 Mitarbeiter: einen Benutzertreiber, einen Systemtreiber, einen System-Executor und einen Standby-User-Executor.
- Weitere Informationen finden Sie unter Using with für eine detaillierte Zugriffskontrolle. AWS GlueAWS Lake Formation
Lake Formation Vollständiger Tabellenzugriff (FTA)
- AWS Glue 5.0 unterstützt FTA mit Spark-Native DataFrames (neu) und GlueContext DynamicFrames (Legacy, mit Einschränkungen)
- Spark-natives FTA
  - Wenn das 4.0-Skript verwendet wird GlueContext, wechseln Sie zur Verwendung von nativem Spark.
  - Diese Funktion ist auf Hive- und Iceberg-Tabellen beschränkt
  - Weitere Informationen zur Konfiguration eines 5.0-Jobs für die Verwendung von Spark Native FTA finden Sie unter
- GlueContext DynamicFrame FTA
  - Keine Codeänderung erforderlich
  - Diese Funktion ist auf Nicht-OTF-Tabellen beschränkt — sie funktioniert nicht mit Iceberg, Delta Lake und Hudi.
Der vektorisierte SIMD CSV-Reader wird nicht unterstützt.
Die kontinuierliche Protokollierung in der Ausgabeprotokollgruppe wird nicht unterstützt. Verwenden Sie stattdessen die error Protokollgruppe.
Der AWS Glue Job Run Insights job-insights-rule-driver ist veraltet. Der job-insights-rca-driver Protokollstream befindet sich jetzt in der Fehlerprotokollgruppe.
Athena-basierte custom/marketplace Konnektoren werden nicht unterstützt.
Adobe Marketo Engage, Facebook Ads, Google Ads, Google Analytics 4, Google Sheets, Hubspot, Instagram Ads, Intercom, Jira Cloud, Oracle, Salesforce, Salesforce Marketing Cloud NetSuite, Salesforce Marketing Cloud Account Engagement, SAP,, Slack, Snapchat Ads, Stripe OData ServiceNow, Zendesk und Zoho CRM Connectors werden nicht unterstützt.
Benutzerdefinierte log4j-Eigenschaften werden in 5.0 nicht unterstützt. AWS Glue

Wesentliche Verbesserungen von Spark 3.3.0 auf Spark 3.5.4

Berücksichtigen Sie die folgenden Verbesserungen:

Python-Client für Spark Connect (SPARK-39375).
Implementieren Sie die Unterstützung für DEFAULT-Werte für Spalten in Tabellen (SPARK-38334).
Support „Lateral Column Alias References“ (SPARK-27561).
Versichern Sie die Verwendung von SQLSTATE für Fehlerklassen (SPARK-41994).
Aktivieren Sie standardmäßig den Bloom-Filter Joins (SPARK-38841).
Bessere Skalierbarkeit und Treiberstabilität der Spark-Benutzeroberfläche für große Anwendungen (SPARK-41053).
Asynchrone Fortschrittsverfolgung beim strukturierten Streaming (SPARK-39591).
Beliebige zustandsbehaftete Python-Verarbeitung in strukturiertem Streaming (SPARK-40434).
Verbesserungen der Pandas-API-Abdeckung (SPARK-42882) und Eingabeunterstützung in (SPARK-39405). NumPy PySpark
Stellen Sie einen Speicherprofiler für benutzerdefinierte Funktionen bereit (SPARK-40281). PySpark
Implementieren Sie PyTorch den Verteiler (SPARK-41589).
Veröffentlichen Sie SBOM-Artefakte (SPARK-41893).
IPv6Nur-Unterstützungsumgebung (SPARK-39457).
Kundenspezifischer K8s-Scheduler (Apache YuniKorn und Volcano) GA (SPARK-42802).
Unterstützung für Scala- und Go-Clients in Spark Connect (SPARK-42554) und (SPARK-43351).
PyTorchbasierte verteilte ML-Unterstützung für Spark Connect (SPARK-42471).
Strukturierte Streaming-Unterstützung für Spark Connect in Python und Scala (SPARK-42938).
Pandas-API-Unterstützung für den Python Spark Connect Client (SPARK-42497).
Stellen Sie Arrow Python UDFs (SPARK-40307) vor.
Support benutzerdefinierte Tabellenfunktionen in Python (SPARK-43798).
Migrieren Sie PySpark Fehler auf Fehlerklassen (SPARK-42986).
PySpark Testframework (SPARK-44042).
Unterstützung für HllSketch Datasketches hinzugefügt (SPARK-16484).
Integrierte Verbesserung der SQL-Funktionen (SPARK-41231).
IDENTIFIER-Klausel (SPARK-43205).
Fügen Sie SQL-Funktionen zur Scala-, Python- und R-API hinzu (SPARK-43907).
Fügen Sie Unterstützung für benannte Argumente für SQL-Funktionen hinzu (SPARK-43922).
Vermeiden Sie unnötige Wiederholungen von Aufgaben auf dem außer Betrieb genommenen Executor, der verloren geht, wenn Shuffle-Daten migriert werden (SPARK-41469).
Verteiltes ML <> Spark Connect (SPARK-42471).
DeepSpeed Verteiler (SPARK-44264).
Implementieren Sie das Changelog-Checkpointing für den RocksDB-Statusspeicher (SPARK-43421).
Führen Sie die Ausbreitung von Wasserzeichen zwischen Operatoren ein (SPARK-42376).
Führen Sie Watermark dropDuplicatesWithin (SPARK-42931) ein.
Verbesserungen der Speicherverwaltung für den RocksDB State Store Provider (SPARK-43311).

Aktionen AWS Glue zur Migration auf 5.0

Ändern Sie bei vorhandenen Aufträgen die Glue version von der vorherigen Version auf Glue 5.0 in der Auftragskonfiguration.

Wählen Sie in AWS Glue Studio Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3 inGlue version.
Wählen Sie in der API 5.0 im GlueVersion-Parameter in der UpdateJob-API-Operation aus.

Wählen Sie für neue Aufträge Glue 5.0 aus, wenn Sie Aufträge erstellen.

Wählen Sie in der Konsole Spark 3.5.4, Python 3 (Glue Version 5.0) or Spark 3.5.4, Scala 2 (Glue Version 5.0) in der Glue version aus.
Wählen Sie in AWS Glue Studio Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3 inGlue version.
Wählen Sie in der API 5.0 im GlueVersion-Parameter in der CreateJob-API-Operation aus.

Um Spark-Ereignisprotokolle von AWS Glue 5.0 aus Version AWS Glue 2.0 oder früher anzuzeigen, starten Sie einen aktualisierten Spark-Verlaufsserver für AWS Glue 5.0 mit AWS CloudFormation oder Docker.

Checkliste für die Migration

Überprüfen Sie diese Checkliste für die Migration:

Java 17-Aktualisierungen
[Scala] Aktualisieren Sie AWS SDK-Aufrufe von Version 1 auf Version 2
Migration von Python 3.10 nach 3.11
[Python] Aktualisieren Sie die Boto-Referenzen von 1.26 auf 1.34

AWS Glue 5.0-Funktionen

In diesem Abschnitt werden die AWS Glue Funktionen ausführlicher beschrieben.

Abfragen von Metastore-Datenkatalogen über ETL AWS Glue

Sie können Ihren AWS Glue Job registrieren, um auf die zuzugreifen AWS Glue Data Catalog, wodurch Tabellen und andere Metastore-Ressourcen unterschiedlichen Benutzern zur Verfügung stehen. Der Datenkatalog unterstützt eine Hierarchie mit mehreren Katalogen, die all Ihre Daten über Amazon S3 S3-Datenseen hinweg vereinheitlicht. Es bietet außerdem sowohl eine Hive-Metastore-API als auch eine Open-Source-Apache Iceberg-API für den Zugriff auf die Daten. Diese Funktionen sind für AWS Glue und andere datenorientierte Dienste wie Amazon EMR, Amazon Athena und Amazon Redshift verfügbar.

Wenn Sie Ressourcen im Datenkatalog erstellen, können Sie von jeder SQL-Engine aus darauf zugreifen, die die Apache Iceberg REST-API unterstützt. AWS Lake Formation verwaltet Berechtigungen. Nach der Konfiguration können Sie die Funktionen zur Abfrage unterschiedlicher Daten nutzen AWS Glue, indem Sie diese Metastore-Ressourcen mit vertrauten Anwendungen abfragen. Dazu gehören Apache Spark und Trino.

Wie sind Metadaten-Ressourcen organisiert

Daten werden in einer logischen Hierarchie von Katalogen, Datenbanken und Tabellen organisiert, wobei Folgendes verwendet wird AWS Glue Data Catalog:

Katalog — Ein logischer Container, der Objekte aus einem Datenspeicher enthält, z. B. Schemas oder Tabellen.
Datenbank — Organisiert Datenobjekte wie Tabellen und Ansichten in einem Katalog.
Tabellen und Ansichten — Datenobjekte in einer Datenbank, die eine Abstraktionsebene mit einem verständlichen Schema bieten. Sie erleichtern den Zugriff auf zugrunde liegende Daten, die in verschiedenen Formaten und an verschiedenen Orten vorliegen können.

Migration von AWS Glue 4.0 auf 5.0 AWS Glue

Alle bestehenden Jobparameter und wichtigen Funktionen, die in AWS Glue 4.0 vorhanden sind, werden in AWS Glue 5.0 verfügbar sein, mit Ausnahme von Transformationen für maschinelles Lernen.

Die folgenden neuen Parameter wurden hinzugefügt:

--enable-lakeformation-fine-grained-access: Aktiviert die FGAC-Funktion (Fine-Grained Access Control) in AWS Lake Formation-Tabellen.

Weitere Informationen finden Sie in der Dokumentation zur Spark-Migration:

Migration von AWS Glue 3.0 auf 5.0 AWS Glue

Anmerkung

Informationen zu Migrationsschritten im Zusammenhang mit AWS Glue 4.0 finden Sie unterMigration von AWS Glue 3.0 auf 4.0 AWS Glue.

Alle bestehenden Jobparameter und Hauptfunktionen, die in AWS Glue 3.0 vorhanden sind, werden auch in AWS Glue 5.0 verfügbar sein, mit Ausnahme von Transformationen für maschinelles Lernen.

Migration von AWS Glue 2.0 auf 5.0 AWS Glue

Anmerkung

Migrationsschritte im Zusammenhang mit AWS Glue 4.0 und eine Liste der Migrationsunterschiede zwischen AWS Glue Version 3.0 und 4.0 finden Sie unterMigration von AWS Glue 3.0 auf 4.0 AWS Glue.

Beachten Sie auch die folgenden Migrationsunterschiede zwischen den AWS Glue Versionen 3.0 und 2.0:

Alle bestehenden Jobparameter und Hauptfunktionen, die es in AWS Glue 2.0 gibt, werden auch in AWS Glue 5.0 verfügbar sein, mit Ausnahme von Transformationen für maschinelles Lernen.
Einige Spark-Änderungen allein erfordern möglicherweise eine Überarbeitung Ihrer Skripte, um sicherzustellen, dass entfernte Features nicht referenziert werden. Zum Beispiel aktiviert Spark 3.1.1 und höher Scala-untyped nicht, UDFs aber Spark 2.4 erlaubt sie.
Python 2.7 wird nicht unterstützt.
Alle zusätzlichen JAR-Dateien, die in bestehenden AWS Glue 2.0-Jobs bereitgestellt werden, können zu widersprüchlichen Abhängigkeiten führen, da es Upgrades in mehreren Abhängigkeiten gab. Sie können Klassenpfadkonflikte mit dem Job-Parameter vermeiden. --user-jars-first
Änderungen am Verhalten von loading/saving Parquet-Dateien mit Zeitstempel from/to . Weitere Informationen finden Sie unter Upgrade von Spark SQL 3.0 auf 3.1.
Unterschiedliche Parallelität der Spark-Tasks für die Konfiguration. driver/executor Sie können die Aufgabenparallelität anpassen, indem Sie das Job-Argument übergeben. --executor-cores

Verhaltensänderungen in 5.0 protokollieren AWS Glue

Im Folgenden sind die Änderungen des Protokollierungsverhaltens in AWS Glue 5.0 aufgeführt. Weitere Informationen finden Sie unter Protokollierung von AWS Glue Aufträgen.

Alle Protokolle (Systemprotokolle, Spark-Daemon-Protokolle, Benutzerprotokolle und Glue Logger-Protokolle) werden jetzt standardmäßig in die /aws-glue/jobs/error Protokollgruppe geschrieben.
Die /aws-glue/jobs/logs-v2 Protokollgruppe, die in früheren Versionen für die kontinuierliche Protokollierung verwendet wurde, wird nicht mehr verwendet.
Sie können die Namen der Protokollgruppe oder des Protokolldatenstroms nicht mehr mithilfe der entfernten Argumente für die kontinuierliche Protokollierung umbenennen oder anpassen. Sehen Sie sich stattdessen die neuen Job-Argumente in AWS Glue 5.0 an.

In AWS Glue 5.0 wurden zwei neue Job-Argumente eingeführt

––custom-logGroup-prefix: Ermöglicht es Ihnen, ein benutzerdefiniertes Präfix für die Gruppen /aws-glue/jobs/error und /aws-glue/jobs/output Logs anzugeben.
––custom-logStream-prefix: Ermöglicht es Ihnen, ein benutzerdefiniertes Präfix für die Log-Stream-Namen innerhalb der Log-Gruppen anzugeben.

Zu den Validierungsregeln und Einschränkungen für benutzerdefinierte Präfixe gehören:
- Der gesamte Protokollstreamname muss zwischen 1 und 512 Zeichen lang sein.
- Das benutzerdefinierte Präfix für Log-Stream-Namen ist auf 400 Zeichen begrenzt.
- Zu den zulässigen Zeichen in Präfixen gehören alphanumerische Zeichen, Unterstriche (`_`), Bindestriche (`-`) und Schrägstriche (`/`).

Argumente für AWS Glue die kontinuierliche Protokollierung wurden in 5.0 nicht mehr unterstützt

Die folgenden Job-Argumente für die kontinuierliche Protokollierung sind in 5.0 veraltet AWS Glue

––enable-continuous-cloudwatch-log
––continuous-log-logGroup
––continuous-log-logStreamPrefix
––continuous-log-conversionPattern
––enable-continuous-log-filter

Migration von Konnektoren und JDBC-Treibern für 5.0 AWS Glue

Die aktualisierten Versionen von JDBC- und Data-Lake-Konnektoren finden Sie unter:

Anhang B: Aktualisierungen von JDBC-Treibern
Anhang C: Konnektor-Upgrades
Anhang D: Upgrades im Open-Table-Format

Die folgenden Änderungen gelten für die Konnektor- oder Treiberversionen, die in den Anhängen für Glue 5.0 aufgeführt sind.