AWS Glue-Versionen - AWS Glue

AWS Glue-Versionen

Sie können den AWS Glue-Versionsparameter konfigurieren, wenn Sie einen Auftrag hinzufügen oder aktualisieren. Die AWS Glue-Version bestimmt, welche Versionen von Apache Spark und Python AWS Glue unterstützt. Die Python-Version gibt die Version an, die für Aufträge des Typs Spark unterstützt wird. In der folgenden Tabelle sind die verfügbaren AWS Glue-Versionen, die entsprechenden Spark- und Python-Versionen sowie andere Änderungen der Funktionalität aufgeführt.

AWS Glue-Versionen

AWS Glue-Version Unterstützte Versionen der Laufzeitumgebung Unterstützte Java-Version Änderungen der Funktionalität
AWS Glue 5.0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

Zusätzlich zu den Framework-Aktualisierungen gibt es Optimierungen und Upgrades in diesem AWS Glue-Release, zum Beispiel:

  • Unterstützung für Amazon SageMaker Unified Studio.

  • Unterstützung für Amazon SageMaker Lakehouse

  • Open Table Formats (OTF) wurden auf Hudi 0.15.0, Iceberg 1.7.1 und Delta Lake 3.3.0 aktualisiert.

  • Native differenzierte Zugriffskontrolle von Spark mit Lake Formation.

  • Unterstützung für Amazon S3 Access Grants

  • requirements.txt-Unterstützung für die Installation zusätzlicher Python-Bibliotheken

  • Unterstützung der Datenherkunft in Amazon DataZone

  • Unterstützung von Buckets von Amazon S3 Tables

  • Unterstützung des AWS Glue-Datenkatalogs für Ansichten mit mehreren Dialekten (Multi-Dialect Views, MDV)

Einschränkungen

Dies sind die Einschränkungen für AWS Glue 5.0:

  • Glue Dynamic Frame/GlueContext-basierte Zugriffskontrolle auf Tabellenebene mit AWS Lake Formation-Berechtigungen, die in Glue 4.0 oder früher unterstützt wurde, wird in Glue 5.0 nicht unterstützt. Verwenden Sie die neue native differenzierte Zugriffskontrolle (FGAC) von Spark in Glue 5.0.

Weitere Informationen zur Migration auf AWS Glue Version 5.0 finden Sie unter Migration von Aufträgen von AWS Glue für Spark zur AWS Glue-Version 5.0.

AWS Glue 4.0 Versionen der Spark-Umgebung
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 bietet eine Reihe von Optimierungen und Upgrades in diesem AWS Glue-Release, wie etwa:

  • Viele Upgrades der Spark-Funktionalität von Spark 3.1 auf Spark 3.3:

    • Verschiedene Funktionsverbesserungen bei Kopplung mit Pandas. Weitere Informationen finden Sie unter Neuerungen für Python 3.3.

    • Zusätzliche Optimierungen, die auf Amazon EMR entwickelt wurden.

    • Führen Sie ein Upgrade auf EMR File System (EMRFS, EMR-Dateisystem) 2.53 durch.

  • Log4j2-Migration von Log4j1.x

  • Verschiedene Python-Modul-Aktualisierungen von AWS Glue 3.0, wie z. B. eine aktualisierte Version von Boto.

  • Upgrade mehrerer Konnektoren, einschließlich des standardmäßigen Amazon-Redshift-Konnektors. Siehe Anhang C: Konnektor-Upgrades.

  • Upgrade mehrerer JDBC-Treiber. Siehe Anhang B: Aktualisierungen von JDBC-Treibern.

  • Aktualisiert mit einem neuen Amazon-Redshift-Konnektor und JDBC-Treiber.

  • Native Unterstützung für Open-Data-Lake-Frameworks mit Apache Hudi, Delta Lake und Apache Iceberg.

  • Native Unterstützung für das Amazon-S3-basierte Cloud-Shuffle-Speicher-Plugin (ein Apache-Spark-Plugin) zur Verwendung von Amazon S3 für Shuffling und elastische Speicherkapazität.

Einschränkungen

Dies sind die Einschränkungen für AWS Glue 4.0:

  • AWS Glue-Machine-Learning und Transformationen von persönlich identifizierbare Informationen (PII) sind in AWS Glue 4.0 noch nicht verfügbar.

Weitere Informationen zur Migration auf AWS Glue Version 4.0 finden Sie unter Migration von Aufträgen von AWS Glue für Spark zur AWS Glue-Version 4.0.

Versionen für Ray-Umgebungen
  • Ray 2.4.0

    Python 3.9

N/A

Entwickeln Sie verteilte Python-Anwendungen mit AWS Glue für Ray und führen Sie sie aus.

Einschränkungen für Ray-Aufträge in AWS Glue 4.0

  • Interaktive AWS Glue-Sitzungen für Ray sind für diese Version weiterhin in der Vorversion verfügbar.

  • Die Integration von AWS Glue für Ray mit Amazon VPC ist derzeit nicht verfügbar. Auf Ressourcen in einer VPC in AWS kann ohne eine öffentliche Route nicht zugegriffen werden. Weitere Informationen zur Verwendung von AWS Glue mit Amazon VPC finden Sie unter Konfigurieren von Schnittstellen-VPC-Endpunkten (AWS PrivateLink) für AWS Glue (AWS PrivateLink).

  • AWS Glue für Ray ist in den USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Tokio) und Europa (Irland) verfügbar.

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Zusätzlich zum Upgrade der Spark-Engine auf Version 3.0 gibt es Optimierungen und Upgrades in diesem AWS Glue Release, zum Beispiel:

  • Erstellt die AWS Glue ETL-Bibliothek mit Spark 3.0, der neuen Hauptversion von Spark.

  • Streaming-Aufträge werden in AWS Glue 3.0 unterstützt

  • Inklusive neuer AWS Glue-Optimierungen der Spark-Laufzeitumgebung für Leistung und Zuverlässigkeit:

    • Schnellere spaltenweise Verarbeitung im Speicher basierend auf Apache Arrow zum Lesen von CSV-Daten.

    • SIMD-basierte Ausführung für vektorisierte Lesevorgänge mit CSV-Daten.

    • Das Spark-Upgrade umfasst weitere Optimierungen, die auf Amazon EMR entwickelt wurden.

    • Ein Upgrade von EMRFS 2.38 auf 2.46 bietet neue Features und Fehlerbehebungen für den Zugriff auf Amazon S3.

  • Aktualisierung verschiedener Abhängigkeiten, die für die neue Spark-Version erforderlich waren.

  • Aktualisierte JDBC-Treiber für unsere nativ unterstützten Datenquellen.

Einschränkungen

Dies sind die Einschränkungen für AWS Glue 3.0:

  • AWS Glue Machine Learning-Transformationen sind in AWS Glue 3.0 noch nicht verfügbar.

  • Einige benutzerdefinierte Spark-Konnektors funktionieren nicht für AWS Glue 3.0, wenn sie von Spark 2.4 abhängen und nicht mit Spark 3.1 kompatibel sind.

AWS Glue 2.0 (Ende der Lebensdauer am 1. April 2026)
  • Spark 2.4.3

  • Python 3.7

N/A

Zusätzlich zu den Features in AWS Glue-Version 1.0 bietet AWS Glue-Version 2.0 auch:

  • Eine aktualisierte Infrastruktur für die Ausführung von Apache Spark ETL-Aufträgen in AWS Glue mit geringeren Startzeiten.

  • Die Standardprotokollierung erfolgt jetzt in Echtzeit, mit separaten Streams für Treiber und Ausführende sowie Ausgaben und Fehler.

  • Support für die Angabe zusätzlicher Python-Module oder verschiedener Versionen auf Auftragsebene.

Anmerkung

AWS Glue-Version 2.0 unterscheidet sich von AWS Glue-Version 1.0 bei einigen Abhängigkeiten und Versionen aufgrund der zugrunde liegenden architektonischen Änderungen. Validieren Sie Ihre AWS Glue-Aufträge vor der Migration auf die AWS Glue-Hauptversionen.

AWS Glue 1.0 (Ende der Lebensdauer am 1. April 2026)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/A

Sie können Auftragslesezeichen für Parquet- und ORC-Formate in AWS Glue-ETL-Aufträgen verwalten (unter Verwendung von AWS Glue Version 1.0). Bisher konnten Sie nur gängige Amazon-S3-Quellformate wie JSON, CSV, Apache Avro und XML in AWS Glue-ETL-Aufträgen mit Lesezeichen versehen.

Wenn Sie Formatoptionen für ETL-Ein- und -Ausgaben festlegen, können Sie angeben, dass das Apache Avro-Reader-/Writer-Format 1.8 verwendet wird, um das Lesen und Schreiben des logischen Avro-Typs zu unterstützen (mit AWS Glue Version 1.0). Zuvor wurde nur Version 1.7 des Avro-Reader-/Writer-Formats unterstützt.

Der DynamoDB-Verbindungstyp unterstützt eine Writer-Option (mit AWS Glue-Version 1.0).

Einschränkungen

Die folgenden sind die Einschränkungen für AWS Glue 1.0:

  • Die AWS Glue-Versionen 0.9 und 1.0 sind in der Region Asien-Pazifik (Jakarta) (ap-southeast-3), Naher Osten (VAE) (me-central-1) und anderen neuen Regionen nicht verfügbar.

AWS Glue 0.9 (Ende der Lebensdauer am 1. April 2026)
  • Spark 2.2.1

  • Python 2.7

N/A

Aufträge, die ohne Angabe einer AWS Glue-Version erstellt wurden, sind standardmäßig auf AWS Glue 0.9 festgelegt.

Einschränkungen

Die folgenden sind die Einschränkungen für AWS Glue 0.9:

  • Die AWS Glue-Versionen 0.9 und 1.0 sind in der Region Asien-Pazifik (Jakarta) (ap-southeast-3), Naher Osten (VAE) (me-central-1) und anderen neuen Regionen nicht verfügbar.

Anmerkung

Die folgenden Versionen von Glue unterstützen diese Versionen von PythonShell:

  • PythonShell v3.6 wird in Glue Version 1.0 unterstützt.

  • PythonShell v3.9 wird in Glue Version 3.0 unterstützt.

Darüber hinaus werden Entwicklungsendpunkte nur in Glue Version 1.0 und 0.9 unterstützt.