Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilasci 6.8.0 di Amazon EMR su EKS
I seguenti rilasci 6.8.0 di Amazon EMR sono disponibili per Amazon EMR su EKS. Seleziona un rilascio emr-6.8.0-XXXX specifico per visualizzare ulteriori dettagli, come il relativo tag dell'immagine di container.
Note di rilascio di Amazon EMR 6.8.0
-
Applicazioni supportate ‐ AWS SDK per Java 1.12.170, Spark 3.3.0-amzn-0, Hudi 0.11.1-amzn-0, Iceberg 0.14.0-amzn-0.
-
Componenti supportati:
aws-sagemaker-spark-sdk,emr-ddb,emr-goodies,emr-s3-select,emrfs,hadoop-client,hudi,hudi-spark,iceberg,spark-kubernetes. -
Classificazioni di configurazione supportate:
Classificazioni Descrizioni core-siteModifica i valori nel file core-site.xml di Hadoop.
emrfs-siteModifica le impostazioni EMRFS.
spark-metricsModifica i valori nel file metrics.properties di Spark.
spark-defaultsModifica i valori nel file spark-defaults.conf di Spark.
spark-envModifica i valori nell'ambiente Spark.
spark-hive-siteModifica i valori nel file hive-site.xml di Spark.
spark-log4jModifica i valori nel file log4j.properties di Spark.
Le classificazioni di configurazione consentono di personalizzare le applicazioni. Spesso corrispondono a un file XML di configurazione per l'applicazione, ad esempio
spark-hive-site.xml. Per ulteriori informazioni, consulta la sezione Configurazione delle applicazioni.
Caratteristiche da tenere in considerazione
-
Spark3.3.0 ‐ Amazon EMR su EKS 6.8 include Spark 3.3.0, che supporta l'uso di etichette di selezione del nodo separate per i pod Spark Driver Executor. Queste nuove etichette consentono di definire i tipi di nodi per i pod driver ed executor separatamente nell'API, senza utilizzare modelli di pod. StartJobRun
-
Proprietà del selettore del nodo driver: spark.kubernetes.driver.node.selector.[labelKey]
-
Proprietà dell'executor del nodo driver: spark.kubernetes.executor.node.selector.[labelKey]
-
-
Messaggio di errore dei processi migliorato: in questo rilascio è stata introdotta la funzione configurazione
spark.stage.extraDetailsOnFetchFailures.enabledespark.stage.extraDetailsOnFetchFailures.maxFailuresToIncludeper tenere traccia degli errori delle attività dovuti al codice utente. Questi dettagli verranno utilizzati per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale.Nome proprietà Valore predefinito Significato Dalla versione spark.stage.extraDetailsOnFetchFailures.enabledfalse
Se impostato su
true, questa proprietà viene utilizzata per migliorare il messaggio di errore visualizzato nel log del driver quando una fase viene interrotta a causa di un errore di recupero casuale. Per impostazione predefinita, vengono tracciati gli ultimi 5 errori causati dal codice utente e il messaggio di errore viene aggiunto nei registri dei driver.Per aumentare il numero di errori delle attività con le eccezioni degli utenti da monitorare, consulta la configurazione
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude.emr-6.8
spark.stage.extraDetailsOnFetchFailures.maxFailuresToInclude5
Numero di operazioni non riuscite per monitorare per fase e tentativo. Questa proprietà viene utilizzata per migliorare il messaggio di errore con eccezioni utente visualizzato nel registro del log quando una fase viene interrotta a causa di un errore di recupero casuale.
Questa proprietà funziona solo se Config spark.stage. extraDetailsOnFetchFailures.enabled è impostato su true.
emr-6.8
Per ulteriori informazioni, documentazione di configurazione di Apache Spark
Problema noto
-
Amazon EMR su EKS 6.8.0 popola erroneamente l'hash di compilazione nei metadati dei file Parquet generati con Apache Spark
. Questo problema può causare il fallimento degli strumenti che analizzano la stringa della versione dei metadati dai file Parquet generati da Amazon EMR su EKS 6.8.0. I clienti che analizzano la stringa della versione dai metadati di Parquet e dipendono dall'hash di compilazione devono passare a una versione diversa di Amazon EMR e riscrivere il file.
Problema risolto
-
Funzionalità Interrupt Kernel per i kernel PySpark: i carichi di lavoro interattivi in corso che vengono attivati dall'esecuzione di celle in un notebook possono essere interrotti utilizzando la funzionalità
Interrupt Kernel. È stata introdotta una correzione in modo che questa funzionalità funzioni per i kernel pySpark. È disponibile anche in versione open source all'indirizzo Changes for handling interrupts for PySpark KubernetesKernel #1115.