Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 5.0 - AWS Glue

Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 5.0

In questo argomento vengono descritte le modifiche tra AWS Glue versioni 0.9, 1.0, 2.0, 3.0 e 4.0 per permettere la migrazione delle applicazioni Spark e dei processi ETL a AWS Glue 5.0. Descrive inoltre le funzionalità in AWS Glue 5.0 e i vantaggi del suo utilizzo.

Per usare questa caratteristica con i processi ETL di AWS Glue, scegli 5.0 per la Glue version durante la creazione dei processi.

Nuove funzionalità

In questa sezione vengono descritte le nuove caratteristiche e i vantaggi di AWS Glue versione 5.0.

  • Aggiornamento di Apache Spark da 3.3.0 in AWS Glue 4.0 a 3.5.4 in AWS Glue 5.0. Consultare Miglioramenti principali da Spark 3.3.0 a Spark 3.5.4.

  • Controllo granulare degli accessi (FGAC) nativo di Spark con Lake Formation. Ciò include FGAC per le tabelle Iceberg, Delta e Hudi. Per ulteriori informazioni, consultare Utilizzo di AWS Glue con AWS Lake Formation per il controllo granulare degli accessi.

    Tenere a mente le seguenti considerazioni o limitazioni per l'FGAC nativo di Spark:

    • Attualmente la scrittura dei dati non è supportata

    • Scrivere in Iceberg GlueContext tramite Lake Formation richiede invece l'uso del controllo degli accessi IAM

    Per un elenco completo delle limitazioni e delle considerazioni relative all'utilizzo di FGAC nativo di Spark, consultare Considerazioni e limitazioni.

  • Supporto per Amazon S3 Access Grants come soluzione di controllo degli accessi scalabile ai dati di Amazon S3 da AWS Glue. Per ulteriori informazioni, consultare Utilizzo di Amazon S3 Access Grants con AWS Glue.

  • Formati a tabella aperta (OTF) aggiornati a Hudi 0.15.0, Iceberg 1.7.1 e Delta Lake 3.3.0

  • Supporto per Amazon SageMaker Unified Studio.

  • Amazon SageMaker Lakehouse e integrazione dell'astrazione dei dati. Per ulteriori informazioni, consultare Interrogazione dei cataloghi di dati dei metastore da AWS Glue ETL.

  • Supporto per l'installazione di librerie Python aggiuntive utilizzando requirements.txt. Per ulteriori informazioni, consultare Installazione di librerie Python aggiuntive in AWS Glue 5.0 o versioni successive utilizzando requirements.txt.

  • AWS Glue 5.0 supporta il data lineage in Amazon DataZone. È possibile configurare AWS Glue per raccogliere automaticamente informazioni sulla derivazione durante l'esecuzione dei processi Spark e inviare gli eventi di derivazione da visualizzare in Amazon DataZone. Per ulteriori informazioni, consultare Data lineage in Amazon DataZone.

    Per configurarlo sulla console AWS Glue, attivare Genera eventi di derivazione e inserisci l'ID del dominio Amazon DataZone nella scheda Dettagli del processo.

    La schermata mostra l'attivazione del data lineage di Amazon DataZone per AWS Glue.

    In alternativa, è possibile fornire il seguente parametro del processo (fornisci l'ID del tuo dominio DataZone):

    • Chiave: --conf

    • Valore:

      extraListeners=io.openlineage.spark.agent.OpenLineageSparkListener —conf spark.openlineage.transport.type=amazon_datazone_api -conf spark.openlineage.transport.domainId=<your-domain-ID>
  • Aggiornamenti del connettore e dei driver JDBC. Per ulteriori informazioni, consultare Appendice B: aggiornamenti dei driver JDBC e Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento Java da 8 a 17.

  • Maggiore spazio di archiviazione per i worker AWS Glue G.1X e G.2X con spazio su disco aumentato rispettivamente a 94 GB e 138 GB. Inoltre, sono disponibili nuovi tipi di worker G.12X, G.16X e R.1X, R.2X, R.4X, R.8X ottimizzati per la memoria nella versione AWS Glue 4.0 e successive. Per ulteriori informazioni, consultare Processi

  • Supporto per AWS SDK per Java, versione 2: i processi AWS Glue 5.0 possono utilizzare versioni Java 1.12.569 o 2.28.8 se il processo supporta v2. AWS SDK per Java 2.x è una riscrittura principale della base di codice della versione 1.x. È stata sviluppata su base Java 8+ e aggiunge diverse caratteristiche richieste frequentemente. Queste includono il supporto per I/O senza blocchi e la possibilità di connettere un'implementazione HTTP diversa durante il runtime. Per ulteriori informazioni, inclusa una Guida alla migrazione da SDK per Java v1 a v2, consultare la guida AWS SDK per Java, versione 2.

Modifiche importanti

Notare le seguenti modifiche speciali:

  • In AWS Glue 5.0, quando si utilizza il file system S3A e se sia `fs.s3a.endpoint` che `fs.s3a.endpoint.region` non sono impostati, la regione predefinita utilizzata da S3A è `us-east-2`. Ciò può causare problemi, come errori di timeout di caricamento di S3, in particolare per i processi VPC. Per mitigare i problemi causati da questa modifica, impostare la configurazione Spark `fs.s3a.endpoint.region` quando si usa il file system S3A in AWS Glue 5.0.

  • Controllo granulare degli accessi (FGAC) di Lake Formation

    • AWS Glue 5.0 supporta solo il nuovo FGAC nativo di Spark che utilizza Spark DataFrames. Non supporta FGAC che utilizza AWS Glue DynamicFrames.

      • L'uso di FGAC in 5.0 richiede la migrazione da AWS Glue DynamicFrames a Spark DataFrames

      • Se non è necessario il FGAC, non occorre migrare a Spark DataFrame e le funzionalità di GlueContext, come i segnalibri di processo e i predicati push down, continueranno a funzionare.

    • I processi con FGAC nativo di Spark richiedono un minimo di 4 worker: un driver utente, un driver di sistema, un esecutore di sistema e un esecutore utente in standby.

    • Per ulteriori informazioni, consultare Utilizzo di AWS Glue con AWS Lake Formation per il controllo granulare degli accessi.

  • Accesso completo alla tabella (FTA) con Lake Formation

    • AWS Glue 5.0 supporta FTA con DataFrames nativo di Spark (nuovo) e GlueContext DynamicFrames (legacy, con limitazioni)

    • FTA nativo di Spark

      • Se lo script 4.0 utilizza GlueContext, eseguire la migrazione all'utilizzo di Spark nativo.

      • Questa funzionalità è limitata alle tabelle hive e iceberg

      • Per maggiori informazioni sulla configurazione di un processo 5.0 per usare FTA nativo di Spark, consultare

    • GlueContext DynamicFrame FTA

      • Non è necessaria alcuna modifica del codice

      • Questa funzionalità è limitata alle tabelle non OTF: non funzionerà con Iceberg, Delta Lake e Hudi.

  • Il lettore SIMD CSV vettorializzato non è supportato.

  • La registrazione continua nel gruppo di log di output non è supportata. Utilizzare invece il gruppo di log error.

  • Le informazioni job-insights-rule-driver sull'esecuzione del processo AWS Glue sono state rese obsolete. Il flusso di log job-insights-rca-driver si trova ora nel gruppo di log di errore.

  • I connettori personalizzati/di marketplace basati su Athena non sono supportati.

  • I connettori Adobe Marketo Engage, Facebook Ads, Google Ads, Google Analytics 4, Google Sheets, Hubspot, Instagram Ads, Intercom, Jira Cloud, Oracle NetSuite, Salesforce, Salesforce Marketing Cloud, Salesforce Marketing Cloud Account Engagement, SAP OData, ServiceNow, Slack, Snapchat Ads, Stripe, Zendesk e Zoho CRM non sono supportati.

  • Le proprietà di log4j personalizzate non sono supportate in AWS Glue 5.0.

Miglioramenti principali da Spark 3.3.0 a Spark 3.5.4

Nota i seguenti miglioramenti:

  • Client Python per Spark Connect (SPARK-39375).

  • Implementare il supporto per i valori DEFAULT per le colonne nelle tabelle (SPARK-38334).

  • Supportare i “riferimenti agli alias delle colonne laterali” (SPARK-27561).

  • Rafforzare l'utilizzo di SQLSTATE per le classi di errore (SPARK-41994).

  • Abilitare i join del filtro Bloom per impostazione predefinita (SPARK-38841).

  • Migliore scalabilità dell'interfaccia utente Spark e stabilità dei driver per applicazioni di grandi dimensioni (SPARK-41053).

  • Monitoraggio asincrono dei progressi nello streaming strutturato (SPARK-39591).

  • Elaborazione stateful arbitraria in Python nello streaming strutturato (SPARK-40434).

  • Miglioramenti alla copertura dell'API Pandas (SPARK-42882) e supporto all'input NumPy in PySpark (SPARK-39405).

  • Fornire un profiler della memoria per le funzioni definite dall'utente di PySpark (SPARK-40281).

  • Implementare il distributore PyTorch (SPARK-41589).

  • Pubblicare artefatti SBOM (SPARK-41893).

  • Supportare l'ambiente solo IPv6 (SPARK-39457).

  • Pianificatore K8s personalizzato (Apache YuniKorn e Volcano) GA (SPARK-42802).

  • Supporto client di Scala and Go in Spark Connect (SPARK-42554) e (SPARK-43351).

  • Supporto ML distribuito basato su Pytorch per Spark Connect (SPARK-42471).

  • Supporto dello streaming strutturato per Spark Connect in Python e Scala (SPARK-42938).

  • Supporto dell'API Pandas per il client Python Spark Connect (SPARK-42497).

  • Introdurre UDF di Arrow Python (SPARK-40307).

  • Supportare le funzioni di tabella definite dall'utente in Python (SPARK-43798).

  • Migrare gli errori di PySpark sulle classi di errore (SPARK-42986).

  • Framework di test di PySpark (SPARK-44042).

  • Aggiungere il supporto per Datasketches HLLSketch (SPARK-16484).

  • Miglioramento della funzione SQL integrata (SPARK-41231).

  • Clausola IDENTIFIER (SPARK-43205).

  • Aggiungere funzioni SQL nelle API Scala, Python e R (SPARK-43907).

  • Aggiungere il supporto per argomenti denominati per le funzioni SQL (SPARK-43922).

  • Evitare la riesecuzione di attività non necessarie su una lista di esecutori disattivati se i dati shuffle vengono migrati (SPARK-41469).

  • ML distribuito <> spark connect (SPARK-42471).

  • Distributore DeepSpeed (SPARK-44264).

  • Implementare il checkpoint del changelog per l'archivio di stato RockSDB (SPARK-43421).

  • Introdurre la propagazione delle filigrane tra gli operatori (SPARK-42376).

  • Introdurre dropDuplicatesWithinWatermark (SPARK-42931).

  • Miglioramenti alla gestione della memoria del provider di archivi di stato RocksDB (SPARK-43311).

Operazioni per eseguire la migrazione ad AWS Glue 5.0

Per i processi esistenti, modifica la Glue version dalla versione precedente a Glue 5.0 nella configurazione del processo.

  • In AWS Glue Studio, scegli Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3 in Glue version.

  • Nell'API, scegli 5.0 nel parametro GlueVersion nell'operazione API UpdateJob.

Per i nuovi processi, scegli Glue 5.0 al momento della creazione.

  • Nella console, scegli Spark 3.5.4, Python 3 (Glue Version 5.0) or Spark 3.5.4, Scala 2 (Glue Version 5.0) in Glue version.

  • In AWS Glue Studio, scegli Glue 5.0 - Supports Spark 3.5.4, Scala 2, Python 3 in Glue version.

  • Nell'API, scegli 5.0 nel parametro GlueVersion nell'operazione API CreateJob.

Per visualizzare i log di eventi Spark di AWS Glue 5.0 provenienti da AWS Glue 2.0 o versioni precedenti, avvia un server di cronologia Spark aggiornato per AWS Glue 5.0 utilizzando AWS CloudFormation o Docker.

Elenco di controllo della migrazione

Rivedi questo elenco di controllo per la migrazione:

  • Aggiornamenti di Java 17

  • [Scala] Aggiornare le chiamate AWS SDK da v1 a v2

  • Migrazione da Python 3.10 a 3.11

  • [Python] Aggiornare i riferimenti di avvio da 1.26 a 1.34

Funzionalità di AWS Glue 5.0

Questa sezione descrive le funzionalità di AWS Glue in modo più dettagliato.

Interrogazione dei cataloghi di dati dei metastore da AWS Glue ETL

È possibile registrare il processo AWS Glue per accedere a AWS Glue Data Catalog, il che rende disponibili tabelle e altre risorse di metastore per diversi consumatori. Il Data Catalog supporta una gerarchia multicatalogo, che unifica tutti i dati nei data lake Amazon S3. Fornisce inoltre sia un'API del metastore Hive che un'API Apache Iceberg open source per l'accesso ai dati. Queste funzionalità sono disponibili per altri servizi orientati ai dati come Amazon EMR, Amazon Athena AWS Glue e Amazon Redshift.

Quando si creano risorse nel Data Catalog, è possibile accedervi da qualsiasi motore SQL che supporti la REST API di Apache Iceberg. AWS Lake Formation gestisce le autorizzazioni. Dopo la configurazione, è possibile sfruttare le funzionalità di AWS Glue per interrogare dati diversi interrogando queste risorse di metastore con applicazioni familiari. Queste includono Apache Spark e Trino.

Come sono organizzate le risorse dei metadati

I dati sono organizzati in una gerarchia logica di cataloghi, database e tabelle, utilizzando il AWS Glue Data Catalog

  • Catalogo: un contenitore logico che contiene oggetti provenienti da un archivio dati, come schemi o tabelle.

  • Database: organizza oggetti di dati come tabelle e viste in un catalogo.

  • Tabelle e viste: oggetti di dati in un database che forniscono un livello di astrazione con uno schema comprensibile. Semplificano l'accesso ai dati sottostanti, che possono essere in vari formati e in varie posizioni.

Migrazione da AWS Glue 4.0 a AWS Glue 5.0

Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 4.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.

Sono stati aggiunti i nuovi parametri seguenti:

  • --enable-lakeformation-fine-grained-access: ativa la funzionalità di controllo granulare degli accessi (FGAC) nelle tabelle di AWS Lake Formation.

Consulta la documentazione relativa alla migrazione di Spark:

Migrazione da AWS Glue 3.0 a AWS Glue 5.0

Nota

Per le fasi di migrazione relative a AWS Glue 4.0, consulta Migrazione da AWS Glue 3.0 a AWS Glue 4.0.

Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 3.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.

Migrazione da AWS Glue 2.0 a AWS Glue 5.0

Nota

Per i passaggi di migrazione relativi a AWS Glue 4.0 e un elenco delle differenze di migrazione tra AWS Glue versione 3.0 e 4.0, vedere Migrazione da AWS Glue 3.0 a AWS Glue 4.0.

Notare inoltre le seguenti differenze di migrazione tra le versioni AWS Glue 3.0 e 2.0:

  • Tutti i parametri di processo e le funzionalità principali esistenti in AWS Glue 2.0 saranno presenti in AWS Glue 5.0, eccetto le trasformazioni basate su machine learning.

  • Diverse modifiche di Spark da sole potrebbero richiedere la revisione degli script per garantire che non si faccia riferimento alle caratteristiche rimosse. Ad esempio, Spark 3.1.1 e versioni successive non abilitano le FDU non tipizzate per Scala, ma Spark 2.4 le consente.

  • Python 2.7 non è supportato.

  • Eventuali jar supplementari forniti in processi esistenti AWS Glue 2.0 possono causare conflitti di dipendenze, a causa dell'aggiornamento di diverse dipendenze. È possibile evitare conflitti di dipendenze con il parametro --user-jars-first del processo.

  • Modifica il comportamento di carico/salvataggio dei timestamp da/verso i file parquet. Per ulteriori dettagli, consultare Aggiornamento da Spark SQL 3.0 a 3.1.

  • Diverso parallelismo delle attività di Spark per la configurazione driver/esecutore. È possibile regolare il parallelismo delle attività passando l'argomento del processo --executor-cores.

Modifiche al comportamento di registrazione in AWS Glue 5.0

Di seguito sono riportate le modifiche al comportamento di registrazione in AWS Glue 5.0. Per ulteriori informazioni, vedere Registrazione dei processi AWS Glue.

  • Tutti i log (log di sistema, log dei daemon Spark, log degli utenti e log di Glue Logger) vengono ora scritti nel gruppo di log /aws-glue/jobs/error per impostazione predefinita.

  • Il gruppo di log /aws-glue/jobs/logs-v2 utilizzato per la registrazione continua nelle versioni precedenti non viene più utilizzato.

  • Non è più possibile rinominare o personalizzare i nomi dei gruppi di log o dei flussi di log utilizzando gli argomenti di registrazione continua rimossi. Consultare invece i nuovi argomenti dei processi in AWS Glue 5.0.

In AWS Glue 5.0 vengono introdotti due nuovi argomenti dei processi

  • ––custom-logGroup-prefix: consente di specificare un prefisso personalizzato per i gruppi di log /aws-glue/jobs/error e /aws-glue/jobs/output.

  • ––custom-logStream-prefix: consente di specificare un prefisso personalizzato per i nomi dei flussi di log all'interno dei gruppi di log.

    Le regole e le limitazioni di convalida per i prefissi personalizzati includono:

    • L'intero nome del flusso di log deve contenere da 1 a 512 caratteri.

    • Il prefisso personalizzato per i nomi dei flussi di log è limitato a 400 caratteri.

    • I caratteri consentiti nei prefissi includono caratteri alfanumerici, caratteri di sottolineatura (`_`), trattini (`-`) e barre (`/`).

Argomenti di registrazione continua obsoleti in AWS Glue 5.0

I seguenti argomenti dei processi per la registrazione continua sono stati resi obsoleti in AWS Glue 5.0

  • ––enable-continuous-cloudwatch-log

  • ––continuous-log-logGroup

  • ––continuous-log-logStreamPrefix

  • ––continuous-log-conversionPattern

  • ––enable-continuous-log-filter

Migrazione di connettori e driver JDBC per AWS Glue 5.0

Per le versioni dei connettori JDBC e data lake che sono state aggiornate, consulta:

Le seguenti modifiche si applicano alle versioni dei connettori o dei driver identificate nelle appendici di Glue 5.0.

Amazon Redshift

Nota le seguenti modifiche:

  • Aggiunge il supporto per i nomi di tabella in tre parti per consentire al connettore di interrogare le tabelle di condivisione dei dati di Redshift.

  • Corregge la mappatura di Spark ShortType per utilizzare Redshift SMALLINT anziché INTEGER per adattarla meglio alla dimensione prevista dei dati.

  • È stato aggiunto il supporto per Custom Cluster Names (CNAME) per Amazon Redshift serverless.

Apache Hudi

Nota le seguenti modifiche:

  • Supporta l'indice di livello record.

  • Supporta la generazione automatica di chiavi di registrazione. Ora non è necessario specificare il campo della chiave di registrazione.

Apache Iceberg

Nota le seguenti modifiche:

  • Supporta il controllo dell'accesso granulare con AWS Lake Formation.

  • Supporta la ramificazione e il tagging, che sono riferimenti denominati a snapshot con cicli di vita indipendenti.

  • È stata aggiunta una procedura di visualizzazione del registro delle modifiche che genera una vista che contiene le modifiche apportate a una tabella in un periodo specificato o tra snapshot specifici.

Delta Lake

Nota le seguenti modifiche:

  • Supporta Delta Universal Format (UniFormat) che consente un accesso senza interruzioni tramite Apache Iceberg e Apache Hudi.

  • Supporta i vettori di cancellazione che implementano un paradigma Merge-on-Read.

AzureCosmos

Nota le seguenti modifiche:

  • È stato aggiunto il supporto per chiavi di partizione gerarchiche.

  • È stata aggiunta l'opzione per utilizzare lo schema personalizzato con StringType (json grezzo) per una proprietà annidata.

  • È stata aggiunta l'opzione di configurazione spark.cosmos.auth.aad.clientCertPemBase64 per consentire l'utilizzo dell'autenticazione SPN (ServicePrincipal name) con certificato anziché segreto client.

Per ulteriori informazioni, consulta il registro delle modifiche del connettore Azure Cosmos DB Spark.

Microsoft SQL Server

Nota le seguenti modifiche:

  • La crittografia TLS è abilita per impostazione predefinita.

  • Quando encrypt = false ma il server richiede la crittografia, il certificato viene convalidato in base all'impostazione della connessione trustServerCertificate.

  • aadSecurePrincipalId e aadSecurePrincipalSecret resi obsoleti.

  • getAADSecretPrincipalId API rimossa.

  • È stata aggiunta la risoluzione CNAME quando viene specificato il realm.

MongoDB

Nota le seguenti modifiche:

  • Supporto per la modalità micro-batch con Spark Structured Streaming.

  • Supporto per i tipi di dati BSON.

  • È stato aggiunto il supporto per la lettura di più raccolte quando si utilizzano modalità di streaming micro-batch o continuo.

    • Se il nome di una raccolta utilizzata nell'opzione di configurazione collection contiene una virgola, Spark Connector la considera come due raccolte diverse. Per risolvere questo problema, è necessario evitare la virgola facendola precedere da una barra rovesciata (\).

    • Se il nome di una raccolta utilizzata nell'opzione di collection configurazione è “*”, Spark Connector la interpreta come una specifica per la scansione di tutte le raccolte. Per risolvere questo problema, è necessario evitare l'asterisco facendolo precedere da una barra rovesciata (\).

    • Se il nome di una raccolta utilizzata nell'opzione di configurazione collection contiene una barra rovesciata (\), Spark Connector considera la barra rovesciata come un carattere di escape, il che potrebbe cambiare il modo in cui interpreta il valore. Per risolvere questo problema, è necessario evitare la barra rovesciata facendola precedere da un'altra barra rovesciata.

Per ulteriori informazioni, consultare il connettore MongoDB per le note di rilascio di Spark.

Snowflake

Nota le seguenti modifiche:

  • È stato introdotto un nuovo parametro trim_space che è possibile utilizzare per rifinire automaticamente i valori delle colonne StringType durante il salvataggio in una tabella Snowflake. Default: false.

  • Per impostazione predefinita, il parametro abort_detached_query è stato disabilitato a livello di sessione.

  • È stato rimosso il requisito del parametro SFUSER quando si utilizza OAUTH.

  • È stata rimossa la funzionalità Advanced Query Pushdown. Sono disponibili alternative alla funzionalità. Ad esempio, anziché caricare i dati dalle tabelle Snowflake, gli utenti possono caricare direttamente i dati dalle query SQL di Snowflake.

Per ulteriori informazioni, consultare il connettore Snowflake per le note di rilascio di Spark.

Appendice A: Aggiornamenti importanti delle dipendenze

Di seguito sono riportati gli aggiornamenti delle dipendenze:

Dipendenza Versione in AWS Glue 5.0 Versione in AWS Glue 4.0 Versione in AWS Glue 3.0 Versione in AWS Glue 2.0 Versione in AWS Glue 1.0
Java 17 8 8 8 8
Spark 3.5.4 3.3.0-amzn-1 3.1.1-amzn-0 2.4.3 2.4.3
Hadoop 3.4.1 3.3.3-amzn-0 3.2.1-amzn-3 2.8.5-amzn-5 2.8.5-amzn-1
Scala 2.12.18 2.12 2.12 2.11 2.11
Jackson 2.15.2 2.12 2.12 2.11 2.11
Hive 2.3.9-amzn-4 2.3.9-amzn-2 2.3.7-amzn-4 1.2 1.2
EMRFS 2.69.0 2.54.0 2.46.0 2.38.0 2.30.0
Json4s 3.7.0-M11 3.7.0-M11 3.6.6 3.5.x 3.5.x
Arrow 12.0.1 7.0.0 2.0.0 0.10.0 0.10.0
Client del catalogo dati AWS Glue 4.5.0 3.7.0 3.0.0 1.10.0 N/D
SDK AWS per Java 2.29.52 1.12 1.12
Python 3.11 3.10 3.7 2.7 e 3.6 2.7 e 3.6
Boto 1.34.131 1.26 1.18 1.12 N/D
Connettore EMR DynamoDB 5.6.0 4.16.0

Appendice B: aggiornamenti dei driver JDBC

Di seguito sono riportati gli aggiornamenti dei driver JDBC:

Driver Versione del driver JDBC in AWS Glue 5.0 Versione del driver JDBC in AWS Glue 4.0 Versione del driver JDBC in AWS Glue 3.0 Versione del driver JDBC nelle precedenti versioni di AWS Glue
MySQL 8.0.33 8.0.23 8.0.23 5.1
Microsoft SQL Server 10.2.0 9.4.0 7.0.0 6.1.0
Database Oracle 23.3.0.23.09 21.7 21.1 11.2
PostgreSQL 42.7.3 42.3.6 42.2.18 42.1.0
Amazon Redshift

redshift-jdbc42-2.1.0.29

redshift-jdbc42-2.1.0.16

redshift-jdbc41-1.2.12.1017

redshift-jdbc41-1.2.12.1017

SAP Hana 2.20.17 2.17.12
Teradata 20.00.00.33 20.00.00.06

Appendice C: Aggiornamenti dei connettori

Di seguito sono riportati gli aggiornamenti dei connettori:

Driver Versione del connettore in AWS Glue 5.0 Versione del connettore in AWS Glue 4.0 Versione del connettore in AWS Glue 3.0
Connettore EMR DynamoDB 5.6.0 4.16.0
Amazon Redshift 6.4.0 6.1.3
OpenSearch 1.2.0 1.0.1
MongoDB 10.4.0 10.0.4 3.0.0
Snowflake 3.0.0 2.12.0
Google BigQuery 0.32.2 0.32.2
AzureCosmos 4.33.0 4.22.0
AzureSQL 1.3.0 1.3.0
Vertica 3.3.5 3.3.5

Appendice D: Aggiornamenti di formato a tabella aperta

Di seguito sono riportati gli aggiornamenti di formato a tabella aperta:

OTF Versione del connettore in AWS Glue 5.0 Versione del connettore in AWS Glue 4.0 Versione del connettore in AWS Glue 3.0
Hudi 0.15.0 0.12.1 0.10.1
Delta Lake 3.3.0 2.1.0 1.0.0
Iceberg 1.7.1 1.0.0 0.13.1