AWS Glue versioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue versioni

È possibile configurare il parametro della AWS Glue versione quando si aggiunge o si aggiorna un lavoro. La AWS Glue versione determina le versioni di Apache Spark e Python supportate. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le versioni AWS Glue disponibili, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

Puoi utilizzare gli aggiornamenti Generative AI per Apache Spark per aggiornare i tuoi job Glue ETL dalle versioni precedenti di Glue (≥ 2.0) all'ultima versione di Glue.

AWS Glue versioni

AWS Glue versione Versioni dell'ambiente di runtime supportate Versione di Java supportata Modifiche della funzionalità
AWS Glue 5.1
  • Spark 3.5.6

  • Python 3.11

  • Scala 2.12.18

Java 17

Oltre all'aggiornamento del motore Spark, in questa AWS Glue versione sono presenti ottimizzazioni e aggiornamenti, come:

  • Open Table Formats (OTF) aggiornati a Hudi 1.0.2, Iceberg 1.10.0 e Delta Lake 3.3.2

  • Formato Iceberg versione 3.0

  • Hudi Full Table Access (FTA) con letture e scritture

  • DDL/DML Operazioni di controllo degli accessi a grana fine (FGAC) native di Spark sulle tabelle Hive, Iceberg e Delta Lake registrate a Lake Formation

  • Contesto di controllo per le chiamate API Glue and Lake Formation nel CloudTrail registro

  • Supporto per Iceberg Materialized Views

AWS Glue 5.0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

Oltre agli aggiornamenti del framework, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Supporto per Amazon SageMaker Unified Studio

  • Assistenza Amazon SageMaker Lakehouse

  • Formati a tabella aperta (OTF) aggiornati a Hudi 0.15.0, Iceberg 1.7.1 e Delta Lake 3.3.0

  • Controllo granulare degli accessi nativo di Spark con Lake Formation.

  • Supporto per Amazon S3 Access Grants

  • Supporto requirements.txt per l'installazione di librerie Python aggiuntive

  • Supporto per la derivazione dei dati in Amazon DataZone

  • Supporto dei bucket di tabelle Amazon S3

  • AWS Glue Supporto per la visualizzazione multidialettale di Data Catalog

Limitazioni

Di seguito sono riportate le limitazioni della versione 5.0: AWS Glue

  • Il controllo degli accessi a livello di tabella GlueContext basato su Glue Dynamic Frame/con AWS Lake Formation autorizzazioni supportate in Glue 4.0 o versioni precedenti non è supportato in Glue 5.0. Usare il nuovo controllo granulare degli accessi (FGAC) nativo di Spark in Glue 5.0.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 5.0, consultare Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 5.0.

AWS Glue 4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue La versione 4.0 include una serie di ottimizzazioni e aggiornamenti, come: AWS Glue

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su Amazon EMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Per informazioni, consulta Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi driver JDBC. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

  • Aggiornato con un nuovo connettore Amazon Redshift e driver JDBC.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 4.0:

  • AWS Glue le trasformazioni relative all'apprendimento automatico e alle informazioni di identificazione personale (PII) non sono ancora disponibili nella versione 4.0. AWS Glue

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 4.0.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue for Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • AWS Glue le sessioni interattive per Ray rimangono disponibili in anteprima per questa versione.

  • AWS Glue l'integrazione di for Ray con Amazon VPC non è attualmente disponibile. Le risorse in un VPC in non AWS saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo AWS Glue con Amazon VPC, consulta. Configurazione degli endpoint VPC (AWS PrivateLink) per AWS Glue (AWS PrivateLink)

  • AWS Glue for Ray è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Crea la libreria AWS Glue ETL sulla base di Spark 3.0, che è una delle principali release di Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove ottimizzazioni del runtime di AWS Glue Spark per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più veloce basata su Apache Arrow per la lettura dei dati CSV.

    • Esecuzione basata su SIMD per letture vettorizzate con dati CSV.

    • L'aggiornamento Spark include anche ulteriori ottimizzazioni sviluppate su Amazon EMR.

    • EMRFS aggiornato da 2.38 a 2.46, con l'abilitazione di nuove caratteristiche e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark.

  • Driver JDBC aggiornati per le nostre origini dati supportate in modo nativo.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 3.0:

  • AWS Glue le trasformazioni dell'apprendimento automatico non sono ancora disponibili nella versione 3.0. AWS Glue

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

AWS Glue 2.0 (fine del ciclo di vita il 1° aprile 2026)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle funzionalità fornite nella AWS Glue versione 1.0, la AWS Glue versione 2.0 offre anche:

  • Un'infrastruttura aggiornata per l'esecuzione dei job ETL di Apache Spark AWS Glue con tempi di avvio ridotti.

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue la versione 2.0 differisce dalla AWS Glue versione 1.0 per alcune dipendenze e versioni a causa delle modifiche architettoniche sottostanti. Convalida i processi AWS Glue prima di eseguire la migrazione tra le versioni principali di AWS Glue .

AWS Glue 1.0 (fine del ciclo di vita il 1° aprile 2026)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

Puoi mantenere i segnalibri dei processi per i formati Parquet e ORC nei processi AWS Glue ETL (utilizzando AWS Glue versione 1.0). In precedenza, era possibile aggiungere ai preferiti solo i formati sorgente più comuni di Amazon S3 come JSON, CSV, Apache Avro e XML nei job ETL. AWS Glue

Quando si impostano le opzioni di formato per gli input e gli output ETL, è possibile specificare di utilizzare il reader/writer formato Apache Avro 1.8 per supportare la lettura e la scrittura dei tipi logici Avro (utilizzando la versione 1.0). AWS Glue In precedenza, era supportato solo il formato Avro versione 1.7. reader/writer

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 1.0:

  • AWS Glue le versioni 0.9 e 1.0 non sono disponibili in Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o in altre nuove regioni in futuro.

AWS Glue 0.9 (fine del ciclo di vita il 1° aprile 2026)
  • Spark 2.2.1

  • Python 2.7

N/D

Lavori creati senza specificare una AWS Glue versione predefinita è 0.9 AWS Glue .

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 0.9:

  • AWS Glue le versioni 0.9 e 1.0 non sono disponibili in Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o in altre nuove regioni in futuro.

Nota

Le seguenti versioni di Glue supportano queste versioni di PythonShell:

  • PythonShell la versione 3.6 è supportata nella versione 1.0 di Glue.

  • PythonShell la versione 3.9 è supportata nella versione 3.0 di Glue.

Inoltre, gli endpoint di sviluppo sono supportati solo nelle versioni 1.0 e 0.9 di Glue.