Versioni AWS Glue - AWS Glue

Versioni AWS Glue

È possibile configurare il parametro della versione di AWS Glue quando si aggiunge o si aggiorna un processo. La versione AWS Glue determina le versioni di Apache Spark e Python supportate da AWS Glue. La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le versioni AWS Glue disponibili, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

Versioni AWS Glue

Versione AWS Glue Versioni dell'ambiente di runtime supportate Versione di Java supportata Modifiche della funzionalità
AWS Glue 5.0
  • Spark 3.5.4

  • Python 3.11

  • Scala 2.12.18

Java 17

Oltre agli aggiornamenti del framework, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Supporto per Amazon SageMaker Unified Studio

  • Supporto per Amazon SageMaker Lakehouse

  • Formati a tabella aperta (OTF) aggiornati a Hudi 0.15.0, Iceberg 1.7.1 e Delta Lake 3.3.0

  • Controllo granulare degli accessi nativo di Spark con Lake Formation.

  • Supporto per Amazon S3 Access Grants

  • Supporto requirements.txt per l'installazione di librerie Python aggiuntive

  • Supporto del data lineage in Amazon DataZone

  • Supporto dei bucket di tabelle Amazon S3

  • Supporto per la visualizzazione multi-dialettale del catalogo dati di AWS Glue

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 5.0:

  • Il controllo degli accessi a livello di tabella basato su GlueContext/Glue Dynamic Frame con autorizzazioni AWS Lake Formation supportate in Glue 4.0 o versioni precedenti non è supportato in Glue 5.0. Usare il nuovo controllo granulare degli accessi (FGAC) nativo di Spark in Glue 5.0.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 5.0, consultare Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 5.0.

AWS Glue 4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 presenta una serie di ottimizzazioni e aggiornamenti integrati in questa versione AWS Glue, come ad esempio:

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su Amazon EMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Consultare Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi driver JDBC. Consultare Appendice B: aggiornamenti dei driver JDBC.

  • Aggiornato con un nuovo connettore Amazon Redshift e driver JDBC.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 4.0:

  • Il machine learning e le trasformazioni di informazioni di identificazione personale (PII) di AWS Glue non sono ancora disponibili in AWS Glue 4.0.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 4.0.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue per Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • Le sessioni interattive di AWS Glue per Ray rimangono disponibili in anteprima per questa versione.

  • L'integrazione di AWS Glue per Ray con Amazon VPC non è attualmente disponibile. Le risorse in un VPC in AWS non saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo di AWS Glue con i VPC di Amazon, consulta la pagina Configurazione degli endpoint VPC (AWS PrivateLink) per AWS Glue (AWS PrivateLink).

  • AWS Glue per Ray è disponibile nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Creazione della libreria ETL di AWS Glue su Spark 3.0, che è una release principale per Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove ottimizzazioni del runtime di Spark AWS Glue per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più veloce basata su Apache Arrow per la lettura dei dati CSV.

    • Esecuzione basata su SIMD per letture vettorizzate con dati CSV.

    • L'aggiornamento Spark include anche ulteriori ottimizzazioni sviluppate su Amazon EMR.

    • EMRFS aggiornato da 2.38 a 2.46, con l'abilitazione di nuove caratteristiche e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark.

  • Driver JDBC aggiornati per le nostre origini dati supportate in modo nativo.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 3.0:

  • Le trasformazioni basate su machine learning di AWS Glue non sono ancora disponibili in AWS Glue 3.0.

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

AWS Glue 2.0 (fine del ciclo di vita il 1º aprile 2026)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle caratteristiche fornite in AWS Glue versione 1.0, AWS Glue versione 2.0 fornisce inoltre:

  • Un'infrastruttura aggiornata per l'esecuzione dei processi ETL di Apache Spark in AWS Glue con tempi di avvio ridotti.

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue versione 2.0 differisce da AWS Glue versione 1.0 per alcune dipendenze e versioni dovute a modifiche a livello di architettura. Convalida i processi AWS Glue prima di eseguire la migrazione tra le versioni principali di AWS Glue.

AWS Glue 1.0 (fine del ciclo di vita il 1º aprile 2026)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

Puoi mantenere i segnalibri dei processi per i formati Parquet e ORC nei processi AWS Glue ETL (utilizzando AWS Glue versione 1.0). In precedenza, era possibile creare segnalibri solo di formati di origine Amazon S3 comuni come JSON, CSV, Apache Avro e XML nei processi AWS Glue ETL.

Quando imposti le opzioni di formato per gli ingressi e le uscite ETL, puoi specificare di utilizzare il formato di lettura/scrittura Apache Avro 1.8 per supportare la lettura e la scrittura del tipo logico Avro (usando AWS Glue versione 1.0). In precedenza, era supportata solo la versione 1.7 del formato di lettura/scrittura Avro.

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 1.0:

  • Le versioni 0.9 e 1.0 di AWS Glue non sono disponibili nelle Regioni Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o altre nuove Regioni in futuro.

AWS Glue 0.9 (fine del ciclo di vita il 1º aprile 2026)
  • Spark 2.2.1

  • Python 2.7

N/D

I processi che sono stati creati senza specificare una versione di AWS Glue utilizzeranno AWS Glue 0.9 per impostazione predefinita.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 0.9:

  • Le versioni 0.9 e 1.0 di AWS Glue non sono disponibili nelle Regioni Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (Emirati Arabi Uniti) (me-central-1) o altre nuove Regioni in futuro.

Nota

Le seguenti versioni di Glue supportano queste versioni di PythonShell:

  • PythonShell v3.6 è supportato nella versione 1.0 di Glue.

  • PythonShell v3.9 è supportato nella versione 3.0 di Glue.

Inoltre, gli endpoint di sviluppo sono supportati solo nelle versioni 1.0 e 0.9 di Glue.