Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 5.0
In questo argomento vengono descritte le modifiche tra AWS Glue versioni 0.9, 1.0, 2.0, 3.0 e 4.0 per permettere la migrazione delle applicazioni Spark e dei processi ETL a AWS Glue 5.0. Descrive inoltre le funzionalità in AWS Glue 5.0 e i vantaggi del suo utilizzo.
Per usare questa caratteristica con i processi ETL di AWS Glue, scegli 5.0 per la Glue version durante la creazione dei processi.
Argomenti
Nuove funzionalità
In questa sezione vengono descritte le nuove caratteristiche e i vantaggi di AWS Glue versione 5.0.
-
Aggiornamento di Apache Spark da 3.3.0 in AWS Glue 4.0 a 3.5.4 in AWS Glue 5.0. Consultare Miglioramenti principali da Spark 3.3.0 a Spark 3.5.4.
-
Controllo granulare degli accessi (FGAC) nativo di Spark con Lake Formation. Ciò include FGAC per le tabelle Iceberg, Delta e Hudi. Per ulteriori informazioni, consultare Utilizzo di AWS Glue con AWS Lake Formation per il controllo granulare degli accessi.
Tenere a mente le seguenti considerazioni o limitazioni per l'FGAC nativo di Spark:
Attualmente la scrittura dei dati non è supportata
Scrivere in Iceberg
GlueContexttramite Lake Formation richiede invece l'uso del controllo degli accessi IAM
Per un elenco completo delle limitazioni e delle considerazioni relative all'utilizzo di FGAC nativo di Spark, consultare Considerazioni e limitazioni.
-
Supporto per Amazon S3 Access Grants come soluzione di controllo degli accessi scalabile ai dati di Amazon S3 da AWS Glue. Per ulteriori informazioni, consultare Utilizzo di Amazon S3 Access Grants con AWS Glue.
-
Formati a tabella aperta (OTF) aggiornati a Hudi 0.15.0, Iceberg 1.7.1 e Delta Lake 3.3.0
-
Supporto per Amazon SageMaker Unified Studio.
-
Amazon SageMaker Lakehouse e integrazione dell'astrazione dei dati. Per ulteriori informazioni, consultare Interrogazione dei cataloghi di dati dei metastore da AWS Glue ETL.
-
Supporto per l'installazione di librerie Python aggiuntive utilizzando
requirements.txt. Per ulteriori informazioni, consultare Installazione di librerie Python aggiuntive in AWS Glue 5.0 o versioni successive utilizzando requirements.txt. -
AWS Glue 5.0 supporta il data lineage in Amazon DataZone. È possibile configurare AWS Glue per raccogliere automaticamente informazioni sulla derivazione durante l'esecuzione dei processi Spark e inviare gli eventi di derivazione da visualizzare in Amazon DataZone. Per ulteriori informazioni, consultare Data lineage in Amazon DataZone.
Per configurarlo sulla console AWS Glue, attivare Genera eventi di derivazione e inserisci l'ID del dominio Amazon DataZone nella scheda Dettagli del processo.
In alternativa, è possibile fornire il seguente parametro del processo (fornisci l'ID del tuo dominio DataZone):
Chiave:
--confValore:
extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener —conf spark.openlineage.transport.type=amazon_datazone_api -conf spark.openlineage.transport.domainId=<your-domain-ID>
-
Aggiornamenti del connettore e dei driver JDBC. Per ulteriori informazioni, consultare Appendice B: aggiornamenti dei driver JDBC e Appendice C: Aggiornamenti dei connettori.
-
Aggiornamento Java da 8 a 17.
-
Maggiore spazio di archiviazione per i worker AWS Glue
G.1XeG.2Xcon spazio su disco aumentato rispettivamente a 94 GB e 138 GB. Inoltre, sono disponibili nuovi tipi di workerG.12X,G.16XeR.1X,R.2X,R.4X,R.8Xottimizzati per la memoria nella versione AWS Glue 4.0 e successive. Per ulteriori informazioni, consultare Processi Supporto per AWS SDK per Java, versione 2: i processi AWS Glue 5.0 possono utilizzare versioni Java 1.12.569
o 2.28.8 se il processo supporta v2. AWS SDK per Java 2.x è una riscrittura principale della base di codice della versione 1.x. È stata sviluppata su base Java 8+ e aggiunge diverse caratteristiche richieste frequentemente. Queste includono il supporto per I/O senza blocchi e la possibilità di connettere un'implementazione HTTP diversa durante il runtime. Per ulteriori informazioni, inclusa una Guida alla migrazione da SDK per Java v1 a v2, consultare la guida AWS SDK per Java, versione 2.
Modifiche importanti
Notare le seguenti modifiche speciali:
-
In AWS Glue 5.0, quando si utilizza il file system S3A e se sia `fs.s3a.endpoint` che `fs.s3a.endpoint.region` non sono impostati, la regione predefinita utilizzata da S3A è `us-east-2`. Ciò può causare problemi, come errori di timeout di caricamento di S3, in particolare per i processi VPC. Per mitigare i problemi causati da questa modifica, impostare la configurazione Spark `fs.s3a.endpoint.region` quando si usa il file system S3A in AWS Glue 5.0.
-
Controllo granulare degli accessi (FGAC) di Lake Formation
-
AWS Glue 5.0 supporta solo il nuovo FGAC nativo di Spark che utilizza Spark DataFrames. Non supporta FGAC che utilizza AWS Glue DynamicFrames.
-
L'uso di FGAC in 5.0 richiede la migrazione da AWS Glue DynamicFrames a Spark DataFrames
-
Se non è necessario il FGAC, non occorre migrare a Spark DataFrame e le funzionalità di GlueContext, come i segnalibri di processo e i predicati push down, continueranno a funzionare.
-
-
I processi con FGAC nativo di Spark richiedono un minimo di 4 worker: un driver utente, un driver di sistema, un esecutore di sistema e un esecutore utente in standby.
-
Per ulteriori informazioni, consultare Utilizzo di AWS Glue con AWS Lake Formation per il controllo granulare degli accessi.
-
-
Accesso completo alla tabella (FTA) con Lake Formation
-
AWS Glue 5.0 supporta FTA con DataFrames nativo di Spark (nuovo) e GlueContext DynamicFrames (legacy, con limitazioni)
-
FTA nativo di Spark
-
Se lo script 4.0 utilizza GlueContext, eseguire la migrazione all'utilizzo di Spark nativo.
-
Questa funzionalità è limitata alle tabelle hive e iceberg
-
Per maggiori informazioni sulla configurazione di un processo 5.0 per usare FTA nativo di Spark, consultare
-
-
GlueContext DynamicFrame FTA
-
Non è necessaria alcuna modifica del codice
-
Questa funzionalità è limitata alle tabelle non OTF: non funzionerà con Iceberg, Delta Lake e Hudi.
-
-
Il lettore SIMD CSV vettorializzato non è supportato.
La registrazione continua nel gruppo di log di output non è supportata. Utilizzare invece il gruppo di log
error.Le informazioni
job-insights-rule-driversull'esecuzione del processo AWS Glue sono state rese obsolete. Il flusso di logjob-insights-rca-driversi trova ora nel gruppo di log di errore.I connettori personalizzati/di marketplace basati su Athena non sono supportati.
I connettori Adobe Marketo Engage, Facebook Ads, Google Ads, Google Analytics 4, Google Sheets, Hubspot, Instagram Ads, Intercom, Jira Cloud, Oracle NetSuite, Salesforce, Salesforce Marketing Cloud, Salesforce Marketing Cloud Account Engagement, SAP OData, ServiceNow, Slack, Snapchat Ads, Stripe, Zendesk e Zoho CRM non sono supportati.
Le proprietà di log4j personalizzate non sono supportate in AWS Glue 5.0.
Miglioramenti principali da Spark 3.3.0 a Spark 3.5.4
Nota i seguenti miglioramenti:
-
Client Python per Spark Connect (SPARK-39375
). -
Implementare il supporto per i valori DEFAULT per le colonne nelle tabelle (SPARK-38334).
-
Supportare i “riferimenti agli alias delle colonne laterali” (SPARK-27561
). -
Rafforzare l'utilizzo di SQLSTATE per le classi di errore (SPARK-41994).
-
Abilitare i join del filtro Bloom per impostazione predefinita (SPARK-38841
). -
Migliore scalabilità dell'interfaccia utente Spark e stabilità dei driver per applicazioni di grandi dimensioni (SPARK-41053
). -
Monitoraggio asincrono dei progressi nello streaming strutturato (SPARK-39591
). -
Elaborazione stateful arbitraria in Python nello streaming strutturato (SPARK-40434
). -
Miglioramenti alla copertura dell'API Pandas (SPARK-42882
) e supporto all'input NumPy in PySpark (SPARK-39405 ). -
Fornire un profiler della memoria per le funzioni definite dall'utente di PySpark (SPARK-40281
). -
Implementare il distributore PyTorch (SPARK-41589
). -
Pubblicare artefatti SBOM (SPARK-41893
). -
Supportare l'ambiente solo IPv6 (SPARK-39457
). -
Pianificatore K8s personalizzato (Apache YuniKorn e Volcano) GA (SPARK-42802
). -
Supporto client di Scala and Go in Spark Connect (SPARK-42554
) e (SPARK-43351 ). -
Supporto ML distribuito basato su Pytorch per Spark Connect (SPARK-42471
). -
Supporto dello streaming strutturato per Spark Connect in Python e Scala (SPARK-42938
). -
Supporto dell'API Pandas per il client Python Spark Connect (SPARK-42497
). -
Introdurre UDF di Arrow Python (SPARK-40307
). -
Supportare le funzioni di tabella definite dall'utente in Python (SPARK-43798
). -
Migrare gli errori di PySpark sulle classi di errore (SPARK-42986
). -
Framework di test di PySpark (SPARK-44042
). -
Aggiungere il supporto per Datasketches HLLSketch (SPARK-16484
). -
Miglioramento della funzione SQL integrata (SPARK-41231
). -
Clausola IDENTIFIER (SPARK-43205
). -
Aggiungere funzioni SQL nelle API Scala, Python e R (SPARK-43907
). -
Aggiungere il supporto per argomenti denominati per le funzioni SQL (SPARK-43922
). -
Evitare la riesecuzione di attività non necessarie su una lista di esecutori disattivati se i dati shuffle vengono migrati (SPARK-41469
). -
ML distribuito <> spark connect (SPARK-42471
). -
Distributore DeepSpeed (SPARK-44264
). -
Implementare il checkpoint del changelog per l'archivio di stato RockSDB (SPARK-43421
). -
Introdurre la propagazione delle filigrane tra gli operatori (SPARK-42376
). -
Introdurre dropDuplicatesWithinWatermark (SPARK-42931
). -
Miglioramenti alla gestione della memoria del provider di archivi di stato RocksDB (SPARK-43311
).
Operazioni per eseguire la migrazione ad AWS Glue 5.0
Per i processi esistenti, modifica la Glue version dalla versione precedente a Glue 5.0 nella configurazione del processo.
-
In AWS Glue Studio, scegli
Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3inGlue version. -
Nell'API, scegli
5.0nel parametroGlueVersionnell'operazione APIUpdateJob.
Per i nuovi processi, scegli Glue 5.0 al momento della creazione.
-
Nella console, scegli
Spark 3.5.4, Python 3 (Glue Version 5.0) or Spark 3.5.4, Scala 2 (Glue Version 5.0)inGlue version. -
In AWS Glue Studio, scegli
Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3inGlue version. -
Nell'API, scegli
5.0nel parametroGlueVersionnell'operazione APICreateJob.
Per visualizzare i log di eventi Spark di AWS Glue 5.0 provenienti da AWS Glue 2.0 o versioni precedenti, avvia un server di cronologia Spark aggiornato per AWS Glue 5.0 utilizzando AWS CloudFormation o Docker.
Elenco di controllo della migrazione
Rivedi questo elenco di controllo per la migrazione:
-
Aggiornamenti di Java 17
-
[Scala] Aggiornare le chiamate AWS SDK da v1 a v2
-
Migrazione da Python 3.10 a 3.11
-
[Python] Aggiornare i riferimenti di avvio da 1.26 a 1.34
Funzionalità di AWS Glue 5.0
Questa sezione descrive le funzionalità di AWS Glue in modo più dettagliato.
Interrogazione dei cataloghi di dati dei metastore da AWS Glue ETL
È possibile registrare il processo AWS Glue per accedere a AWS Glue Data Catalog, il che rende disponibili tabelle e altre risorse di metastore per diversi consumatori. Il Data Catalog supporta una gerarchia multicatalogo, che unifica tutti i dati nei data lake Amazon S3. Fornisce inoltre sia un'API del metastore Hive che un'API Apache Iceberg open source per l'accesso ai dati. Queste funzionalità sono disponibili per altri servizi orientati ai dati come Amazon EMR, Amazon Athena AWS Glue e Amazon Redshift.
Quando si creano risorse nel Data Catalog, è possibile accedervi da qualsiasi motore SQL che supporti la REST API di Apache Iceberg. AWS Lake Formation gestisce le autorizzazioni. Dopo la configurazione, è possibile sfruttare le funzionalità di AWS Glue per interrogare dati diversi interrogando queste risorse di metastore con applicazioni familiari. Queste includono Apache Spark e Trino.
Come sono organizzate le risorse dei metadati
I dati sono organizzati in una gerarchia logica di cataloghi, database e tabelle, utilizzando il AWS Glue Data Catalog
Catalogo: un contenitore logico che contiene oggetti provenienti da un archivio dati, come schemi o tabelle.
Database: organizza oggetti di dati come tabelle e viste in un catalogo.
Tabelle e viste: oggetti di dati in un database che forniscono un livello di astrazione con uno schema comprensibile. Semplificano l'accesso ai dati sottostanti, che possono essere in vari formati e in varie posizioni.
Migrazione da AWS Glue 4.0 a AWS Glue 5.0
Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 4.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.
Sono stati aggiunti i nuovi parametri seguenti:
-
--enable-lakeformation-fine-grained-access: ativa la funzionalità di controllo granulare degli accessi (FGAC) nelle tabelle di AWS Lake Formation.
Consulta la documentazione relativa alla migrazione di Spark:
Migrazione da AWS Glue 3.0 a AWS Glue 5.0
Nota
Per le fasi di migrazione relative a AWS Glue 4.0, consulta Migrazione da AWS Glue 3.0 a AWS Glue 4.0.
Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 3.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.
Migrazione da AWS Glue 2.0 a AWS Glue 5.0
Nota
Per i passaggi di migrazione relativi a AWS Glue 4.0 e un elenco delle differenze di migrazione tra AWS Glue versione 3.0 e 4.0, vedere Migrazione da AWS Glue 3.0 a AWS Glue 4.0.
Notare inoltre le seguenti differenze di migrazione tra le versioni AWS Glue 3.0 e 2.0:
Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 2.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.
Diverse modifiche di Spark da sole potrebbero richiedere la revisione degli script per garantire che non si faccia riferimento alle caratteristiche rimosse. Ad esempio, Spark 3.1.1 e versioni successive non abilitano le FDU non tipizzate per Scala, ma Spark 2.4 le consente.
Python 2.7 non è supportato.
Eventuali jar supplementari forniti in processi esistenti AWS Glue 2.0 possono causare conflitti di dipendenze, a causa dell'aggiornamento di diverse dipendenze. È possibile evitare conflitti di dipendenze con il parametro
--user-jars-firstdel processo.Modifica il comportamento di carico/salvataggio dei timestamp da/verso i file parquet. Per ulteriori dettagli, consultare Aggiornamento da Spark SQL 3.0 a 3.1.
Diverso parallelismo delle attività di Spark per la configurazione driver/esecutore. È possibile regolare il parallelismo delle attività passando l'argomento del processo
--executor-cores.
Modifiche al comportamento di registrazione in AWS Glue 5.0
Di seguito sono riportate le modifiche al comportamento di registrazione in AWS Glue 5.0. Per ulteriori informazioni, vedere Registrazione dei processi AWS Glue.
-
Tutti i log (log di sistema, log dei daemon Spark, log degli utenti e log di Glue Logger) vengono ora scritti nel gruppo di log
/aws-glue/jobs/errorper impostazione predefinita. -
Il gruppo di log
/aws-glue/jobs/logs-v2utilizzato per la registrazione continua nelle versioni precedenti non viene più utilizzato. -
Non è più possibile rinominare o personalizzare i nomi dei gruppi di log o dei flussi di log utilizzando gli argomenti di registrazione continua rimossi. Consultare invece i nuovi argomenti dei processi in AWS Glue 5.0.
In AWS Glue 5.0 vengono introdotti due nuovi argomenti dei processi
-
––custom-logGroup-prefix: consente di specificare un prefisso personalizzato per i gruppi di log/aws-glue/jobs/errore/aws-glue/jobs/output. -
––custom-logStream-prefix: consente di specificare un prefisso personalizzato per i nomi dei flussi di log all'interno dei gruppi di log.Le regole e le limitazioni di convalida per i prefissi personalizzati includono:
-
L'intero nome del flusso di log deve contenere da 1 a 512 caratteri.
-
Il prefisso personalizzato per i nomi dei flussi di log è limitato a 400 caratteri.
-
I caratteri consentiti nei prefissi includono caratteri alfanumerici, caratteri di sottolineatura (`_`), trattini (`-`) e barre (`/`).
-
Argomenti di registrazione continua obsoleti in AWS Glue 5.0
I seguenti argomenti dei processi per la registrazione continua sono stati resi obsoleti in AWS Glue 5.0
-
––enable-continuous-cloudwatch-log -
––continuous-log-logGroup -
––continuous-log-logStreamPrefix -
––continuous-log-conversionPattern -
––enable-continuous-log-filter
Migrazione di connettori e driver JDBC per AWS Glue 5.0
Per le versioni dei connettori JDBC e data lake che sono state aggiornate, consulta:
Le seguenti modifiche si applicano alle versioni dei connettori o dei driver identificate nelle appendici di Glue 5.0.
Amazon Redshift
Nota le seguenti modifiche:
Aggiunge il supporto per i nomi di tabella in tre parti per consentire al connettore di interrogare le tabelle di condivisione dei dati di Redshift.
Corregge la mappatura di Spark
ShortTypeper utilizzare RedshiftSMALLINTanzichéINTEGERper adattarla meglio alla dimensione prevista dei dati.È stato aggiunto il supporto per Custom Cluster Names (CNAME) per Amazon Redshift serverless.
Apache Hudi
Nota le seguenti modifiche:
Supporta l'indice di livello record.
Supporta la generazione automatica di chiavi di registrazione. Ora non è necessario specificare il campo della chiave di registrazione.
Apache Iceberg
Nota le seguenti modifiche:
Supporta il controllo dell'accesso granulare con AWS Lake Formation.
Supporta la ramificazione e il tagging, che sono riferimenti denominati a snapshot con cicli di vita indipendenti.
È stata aggiunta una procedura di visualizzazione del registro delle modifiche che genera una vista che contiene le modifiche apportate a una tabella in un periodo specificato o tra snapshot specifici.
Delta Lake
Nota le seguenti modifiche:
Supporta Delta Universal Format (UniFormat) che consente un accesso senza interruzioni tramite Apache Iceberg e Apache Hudi.
Supporta i vettori di cancellazione che implementano un paradigma Merge-on-Read.
AzureCosmos
Nota le seguenti modifiche:
È stato aggiunto il supporto per chiavi di partizione gerarchiche.
È stata aggiunta l'opzione per utilizzare lo schema personalizzato con StringType (json grezzo) per una proprietà annidata.
È stata aggiunta l'opzione di configurazione
spark.cosmos.auth.aad.clientCertPemBase64per consentire l'utilizzo dell'autenticazione SPN (ServicePrincipal name) con certificato anziché segreto client.
Per ulteriori informazioni, consulta il registro delle modifiche del connettore Azure Cosmos DB Spark
Microsoft SQL Server
Nota le seguenti modifiche:
La crittografia TLS è abilita per impostazione predefinita.
Quando encrypt = false ma il server richiede la crittografia, il certificato viene convalidato in base all'impostazione della connessione
trustServerCertificate.aadSecurePrincipalIdeaadSecurePrincipalSecretresi obsoleti.getAADSecretPrincipalIdAPI rimossa.È stata aggiunta la risoluzione CNAME quando viene specificato il realm.
MongoDB
Nota le seguenti modifiche:
Supporto per la modalità micro-batch con Spark Structured Streaming.
Supporto per i tipi di dati BSON.
È stato aggiunto il supporto per la lettura di più raccolte quando si utilizzano modalità di streaming micro-batch o continuo.
Se il nome di una raccolta utilizzata nell'opzione di configurazione
collectioncontiene una virgola, Spark Connector la considera come due raccolte diverse. Per risolvere questo problema, è necessario evitare la virgola facendola precedere da una barra rovesciata (\).Se il nome di una raccolta utilizzata nell'opzione di
collectionconfigurazione è “*”, Spark Connector la interpreta come una specifica per la scansione di tutte le raccolte. Per risolvere questo problema, è necessario evitare l'asterisco facendolo precedere da una barra rovesciata (\).Se il nome di una raccolta utilizzata nell'opzione di configurazione
collectioncontiene una barra rovesciata (\), Spark Connector considera la barra rovesciata come un carattere di escape, il che potrebbe cambiare il modo in cui interpreta il valore. Per risolvere questo problema, è necessario evitare la barra rovesciata facendola precedere da un'altra barra rovesciata.
Per ulteriori informazioni, consultare il connettore MongoDB per le note di rilascio di Spark
Snowflake
Nota le seguenti modifiche:
È stato introdotto un nuovo parametro
trim_spaceche è possibile utilizzare per rifinire automaticamente i valori delle colonneStringTypedurante il salvataggio in una tabella Snowflake. Default:false.Per impostazione predefinita, il parametro
abort_detached_queryè stato disabilitato a livello di sessione.È stato rimosso il requisito del parametro
SFUSERquando si utilizza OAUTH.È stata rimossa la funzionalità Advanced Query Pushdown. Sono disponibili alternative alla funzionalità. Ad esempio, anziché caricare i dati dalle tabelle Snowflake, gli utenti possono caricare direttamente i dati dalle query SQL di Snowflake.
Per ulteriori informazioni, consultare il connettore Snowflake per le note di rilascio di Spark
Appendice A: Aggiornamenti importanti delle dipendenze
Di seguito sono riportati gli aggiornamenti delle dipendenze:
| Dipendenza | Versione in AWS Glue 5.0 | Versione in AWS Glue 4.0 | Versione in AWS Glue 3.0 | Versione in AWS Glue 2.0 | Versione in AWS Glue 1.0 |
|---|---|---|---|---|---|
| Java | 17 | 8 | 8 | 8 | 8 |
| Spark | 3.5.4 | 3.3.0-amzn-1 | 3.1.1-amzn-0 | 2.4.3 | 2.4.3 |
| Hadoop | 3.4.1 | 3.3.3-amzn-0 | 3.2.1-amzn-3 | 2.8.5-amzn-5 | 2.8.5-amzn-1 |
| Scala | 2.12.18 | 2.12 | 2.12 | 2.11 | 2.11 |
| Jackson | 2.15.2 | 2.12 | 2.12 | 2.11 | 2.11 |
| Hive | 2.3.9-amzn-4 | 2.3.9-amzn-2 | 2.3.7-amzn-4 | 1.2 | 1.2 |
| EMRFS | 2.69.0 | 2.54.0 | 2.46.0 | 2.38.0 | 2.30.0 |
| Json4s | 3.7.0-M11 | 3.7.0-M11 | 3.6.6 | 3.5.x | 3.5.x |
| Arrow | 12.0.1 | 7.0.0 | 2.0.0 | 0.10.0 | 0.10.0 |
| Client del catalogo dati AWS Glue | 4.5.0 | 3.7.0 | 3.0.0 | 1.10.0 | N/D |
| SDK AWS per Java | 2.29.52 | 1.12 | 1.12 | ||
| Python | 3.11 | 3.10 | 3.7 | 2.7 e 3.6 | 2.7 e 3.6 |
| Boto | 1.34.131 | 1.26 | 1.18 | 1.12 | N/D |
| Connettore EMR DynamoDB | 5.6.0 | 4.16.0 |
Appendice B: aggiornamenti dei driver JDBC
Di seguito sono riportati gli aggiornamenti dei driver JDBC:
| Driver | Versione del driver JDBC in AWS Glue 5.0 | Versione del driver JDBC in AWS Glue 4.0 | Versione del driver JDBC in AWS Glue 3.0 | Versione del driver JDBC nelle precedenti versioni di AWS Glue |
|---|---|---|---|---|
| MySQL | 8.0.33 | 8.0.23 | 8.0.23 | 5.1 |
| Microsoft SQL Server | 10.2.0 | 9.4.0 | 7.0.0 | 6.1.0 |
| Database Oracle | 23.3.0.23.09 | 21.7 | 21.1 | 11.2 |
| PostgreSQL | 42.7.3 | 42.3.6 | 42.2.18 | 42.1.0 |
| Amazon Redshift |
redshift-jdbc42-2.1.0.29 |
redshift-jdbc42-2.1.0.16 |
redshift-jdbc41-1.2.12.1017 |
redshift-jdbc41-1.2.12.1017 |
| SAP Hana | 2.20.17 | 2.17.12 | ||
| Teradata | 20.00.00.33 | 20.00.00.06 |
Appendice C: Aggiornamenti dei connettori
Di seguito sono riportati gli aggiornamenti dei connettori:
| Driver | Versione del connettore in AWS Glue 5.0 | Versione del connettore in AWS Glue 4.0 | Versione del connettore in AWS Glue 3.0 |
|---|---|---|---|
| Connettore EMR DynamoDB | 5.6.0 | 4.16.0 | |
| Amazon Redshift | 6.4.0 | 6.1.3 | |
| OpenSearch | 1.2.0 | 1.0.1 | |
| MongoDB | 10.4.0 | 10.0.4 | 3.0.0 |
| Snowflake | 3.0.0 | 2.12.0 | |
| Google BigQuery | 0.32.2 | 0.32.2 | |
| AzureCosmos | 4.33.0 | 4.22.0 | |
| AzureSQL | 1.3.0 | 1.3.0 | |
| Vertica | 3.3.5 | 3.3.5 |
Appendice D: Aggiornamenti di formato a tabella aperta
Di seguito sono riportati gli aggiornamenti di formato a tabella aperta:
| OTF | Versione del connettore in AWS Glue 5.0 | Versione del connettore in AWS Glue 4.0 | Versione del connettore in AWS Glue 3.0 |
|---|---|---|---|
| Hudi | 0.15.0 | 0.12.1 | 0.10.1 |
| Delta Lake | 3.3.0 | 2.1.0 | 1.0.0 |
| Iceberg | 1.7.1 | 1.0.0 | 0.13.1 |